本文來自微信公眾號(hào)“twt企業(yè)IT社區(qū)(ID:talkwithtrend)”。
前言
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)已經(jīng)成為企業(yè)的戰(zhàn)略資源,如何存儲(chǔ)數(shù)據(jù)以及如何利用數(shù)據(jù)也已成為企業(yè)科技部門研究的熱點(diǎn)話題,尤其是伴隨著近些年的互聯(lián)網(wǎng)革命,數(shù)據(jù)存儲(chǔ)世界也發(fā)生了翻天覆地的變化,出現(xiàn)了很多新的名詞、新的產(chǎn)品、新的趨勢(shì)等等。面對(duì)這些眼花繚亂的事物,如何抽絲剝繭抓住事物的本質(zhì)其實(shí)是從事技術(shù)研究工作的首要任務(wù)。而對(duì)于分布式存儲(chǔ)技術(shù)這個(gè)領(lǐng)域,我認(rèn)為需要從縱向的存儲(chǔ)技術(shù)發(fā)展脈絡(luò)和橫向的主流技術(shù)對(duì)比兩個(gè)方面來深刻認(rèn)識(shí)。
一、存儲(chǔ)技術(shù)的原始階段
如果以具備獨(dú)立存儲(chǔ)設(shè)備為界限,我們暫且追溯到DAS存儲(chǔ)的發(fā)展階段,主要是90年代之前的周期。這個(gè)階段的應(yīng)用系統(tǒng)主要是單機(jī)業(yè)務(wù)系統(tǒng),相互之間獨(dú)立,所需存儲(chǔ)的數(shù)據(jù)量也非常少。但是這個(gè)時(shí)候數(shù)據(jù)的安全性已經(jīng)提升到一定高度,于是基于數(shù)據(jù)的安全性考慮,將業(yè)務(wù)數(shù)據(jù)獨(dú)立,產(chǎn)生了DAS存儲(chǔ)架構(gòu)。
圖1.1 DAS存儲(chǔ)架構(gòu)圖
DAS(Direct-Attached Storage)
1.通過FC、SCSI、SAS等協(xié)議與主機(jī)相連接,提供存儲(chǔ)服務(wù);
2.DAS存儲(chǔ)作為單獨(dú)的存儲(chǔ)平臺(tái),可以配置RAID冗余策略來保護(hù)數(shù)據(jù);
DAS存儲(chǔ)架構(gòu)與之前沒有獨(dú)立存儲(chǔ)平臺(tái)的服務(wù)器IT架構(gòu)相比較,解決了什么樣的問題?
任何優(yōu)勢(shì)都是相對(duì)于特定的歷史時(shí)期而言的,存儲(chǔ)架構(gòu)的優(yōu)勢(shì)也是站在特定的歷史時(shí)期下來說的。在那個(gè)特定的歷史時(shí)期下,它實(shí)現(xiàn)了服務(wù)器系統(tǒng)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的分離,相比較之前的服務(wù)器內(nèi)部存儲(chǔ)架構(gòu)來講,從數(shù)據(jù)的安全性、靈活性、擴(kuò)展性方面都有了本質(zhì)的提高。
1.安全性方面實(shí)現(xiàn)了系統(tǒng)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的隔離;
2.靈活性方面去掉了與服務(wù)器系統(tǒng)本身的耦合性;
3.擴(kuò)展性上實(shí)現(xiàn)了從若干塊服務(wù)器機(jī)械硬盤的容量到一組甚至幾組硬盤的容量規(guī)模。
DAS存儲(chǔ)架構(gòu)在自己的時(shí)代又經(jīng)歷了哪些進(jìn)化?
在這個(gè)特定的時(shí)代,無論DAS存儲(chǔ)架構(gòu)如何進(jìn)化,都只是量的變化,并沒有發(fā)生質(zhì)的改變。例如連接協(xié)議的改變,由最初的一條SCSI線逐漸進(jìn)化為可以冗余的FC光纖線,結(jié)合上多路徑聚合技術(shù)的應(yīng)用,實(shí)現(xiàn)了物理鏈路的高可用;例如DAS存儲(chǔ)產(chǎn)品本身的最大容量由最初的單存儲(chǔ)柜容量變成了多柜容量;例如如DAS存儲(chǔ)的冗余策略也從簡(jiǎn)單的RAID1、RAID1+0變?yōu)榱烁S富的冗余策略;例如數(shù)據(jù)分布策略逐漸優(yōu)化到更小粒度的平均分布策略。
二、SAN&NAS共存的發(fā)展階段
伴隨著1995年博科(Brocade)公司的誕生,存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)的概念走進(jìn)存儲(chǔ)世界,1999年EMC發(fā)布第一款支持SAN存儲(chǔ)區(qū)域網(wǎng)絡(luò)的存儲(chǔ)產(chǎn)品。從此之后,SAN存儲(chǔ)便成為企業(yè)存儲(chǔ)的主導(dǎo)。
80年代,Novell提出了Netware操作系統(tǒng)和NCP(網(wǎng)絡(luò)核心協(xié)議);Sun推出了針對(duì)Unix系統(tǒng)的網(wǎng)絡(luò)文件系統(tǒng)(NFS)協(xié)議。1993年,NetApp推出了一個(gè)NAS設(shè)備。1996年,NetApp又推出了能夠同時(shí)具備支持CIFS&NFS協(xié)議的存儲(chǔ)設(shè)備,也就是企業(yè)級(jí)的網(wǎng)絡(luò)附加存儲(chǔ)(NAS)存儲(chǔ)設(shè)備。
圖2.1 SAN存儲(chǔ)架構(gòu)圖
SAN(Storage Aread Network)Storage
通過FC協(xié)議與主機(jī)的HBA卡相連接,提供數(shù)據(jù)存儲(chǔ)服務(wù);
可以提供Block存儲(chǔ)載體;
可以實(shí)現(xiàn)多鏈路高性能及高可用讀寫的數(shù)據(jù)存儲(chǔ)服務(wù);
可以實(shí)現(xiàn)遠(yuǎn)距離的數(shù)據(jù)存儲(chǔ)服務(wù);
圖2.2 NAS存儲(chǔ)架構(gòu)圖
NAS(Network-Attached Storage)
通過以太網(wǎng)絡(luò)協(xié)議與主機(jī)相連接,提供數(shù)據(jù)存儲(chǔ)服務(wù);
只能提供文件系統(tǒng)作為數(shù)據(jù)存儲(chǔ)服務(wù)的載體;
可以實(shí)現(xiàn)文件系統(tǒng)級(jí)別的數(shù)據(jù)共享服務(wù);
可以實(shí)現(xiàn)遠(yuǎn)超遠(yuǎn)距離的數(shù)據(jù)存儲(chǔ)服務(wù)。
為什么NAS和SAN存儲(chǔ)逐漸取代了DAS存儲(chǔ)?
隨著信息化的不斷發(fā)展,應(yīng)用系統(tǒng)逐漸由單機(jī)式的業(yè)務(wù)模式發(fā)展為CS/BS的前后臺(tái)組合模式,業(yè)務(wù)系統(tǒng)之間的耦合性越來越強(qiáng);數(shù)據(jù)的重要性逐漸凸顯,對(duì)企業(yè)存儲(chǔ)的安全性和穩(wěn)定性有更高要求;數(shù)據(jù)量的增長(zhǎng)不再是定格在某個(gè)業(yè)務(wù)系統(tǒng)的模式,更多的是系統(tǒng)群的數(shù)據(jù)增長(zhǎng)模式,而這種變化對(duì)企業(yè)存儲(chǔ)的靈活性、擴(kuò)展性以及容量本身都提出了更高的要求。在這些變化的驅(qū)動(dòng)下,NAS和SAN存儲(chǔ)必然取代DAS。
SAN存儲(chǔ)與服務(wù)器實(shí)現(xiàn)了物理連接的解耦;
SAN存儲(chǔ)可以在應(yīng)用服務(wù)器之間實(shí)現(xiàn)存儲(chǔ)設(shè)備的共享;
SAN存儲(chǔ)與服務(wù)器之間的鏈路實(shí)現(xiàn)了高度冗余,在性能和高可用都得到質(zhì)變;
NAS存儲(chǔ)可以支持更靈活的以太網(wǎng)協(xié)議;
NAS存儲(chǔ)可以實(shí)現(xiàn)文件系統(tǒng)級(jí)別的數(shù)據(jù)共享;
NAS存儲(chǔ)可以實(shí)現(xiàn)超遠(yuǎn)距離的數(shù)據(jù)存儲(chǔ)服務(wù)。
為什么SAN存儲(chǔ)雖然是企業(yè)存儲(chǔ)主流,但也始終無法取代NAS?
或許我們可以舉出很多很多二者之間的區(qū)別,從連接協(xié)議、數(shù)據(jù)載體、靈活度等等各個(gè)方面都會(huì)有一些差異導(dǎo)致不同場(chǎng)景下的優(yōu)劣。但是我認(rèn)為最根本原因還是在于性能問題。NAS存儲(chǔ)的性能瓶頸在于其傳輸協(xié)議和數(shù)據(jù)載體類型。20世紀(jì)前后,以太網(wǎng)的發(fā)展多數(shù)停留在千兆級(jí)別,與同時(shí)代SAN網(wǎng)絡(luò)的4GB、8GB FC相比,速度相差太懸殊了。文件系統(tǒng)雖然可以直接存放文件,但是其讀寫的控制機(jī)制相比較Block模式來講要復(fù)雜很多,性能開銷大打折扣。也許有人會(huì)說因?yàn)镾AN存儲(chǔ)大部分應(yīng)用于數(shù)據(jù)庫類的應(yīng)用,而數(shù)據(jù)庫類的應(yīng)用不適合文件系統(tǒng)。表面上這句話沒錯(cuò),但是誰說數(shù)據(jù)庫的容器(DB2)或者數(shù)據(jù)文件(Oracle)就不能是文件系統(tǒng)上的文件呢,而非得Block存儲(chǔ)卷呢?其根本原因還是在于底層的讀寫性能。
那么反過來,為什么NAS還能一直存在并與SAN存儲(chǔ)并存呢?
這個(gè)還是取決于它支持的協(xié)議和文件的載體,有一些數(shù)據(jù)存儲(chǔ)場(chǎng)景更適合于以太網(wǎng)協(xié)議,并且更適合文件系統(tǒng)作為載體。SAN網(wǎng)絡(luò)要想傳輸?shù)较鄬?duì)遠(yuǎn)距離的區(qū)域,比如不同樓宇、不同園區(qū)、不同地區(qū),從成本上、技術(shù)上、靈活性上來看都會(huì)力不從心。Block存儲(chǔ)要想實(shí)現(xiàn)數(shù)據(jù)的共享讀寫,不是不可以,但是必須得依賴于應(yīng)用的共享控制機(jī)制,比如HA軟件和LVM,而NAS存儲(chǔ)天生支持NFS和CIFS共享協(xié)議。
SAN&NAS存儲(chǔ)架構(gòu)在自己的時(shí)代又經(jīng)歷了哪些進(jìn)化?
在屬于自己的時(shí)代里,SAN和NAS存儲(chǔ)架構(gòu)圍繞著擴(kuò)展性、高可用、性能以及TCO等因素各自伴隨著新的軟硬件技術(shù)誕生發(fā)展而衍生出新的發(fā)展趨勢(shì)。
1).存儲(chǔ)控制器的擴(kuò)展性發(fā)展趨勢(shì)。
最初的SAN存儲(chǔ)基本屬于雙控制架構(gòu),兩個(gè)控制器的工作模式由最初的AS模式發(fā)展為AA模式,為整個(gè)存儲(chǔ)系統(tǒng)提供數(shù)據(jù)的讀寫控制服務(wù),后續(xù)逐漸發(fā)展為網(wǎng)狀架構(gòu)多控的負(fù)載均衡集群模式。
2010年HP公司完成對(duì)3PAR公司的收購,標(biāo)志著HP存儲(chǔ)系統(tǒng)從原來的雙控四控EVA存儲(chǔ)架構(gòu)轉(zhuǎn)化為網(wǎng)狀架構(gòu)的8控、16控高端SAN存儲(chǔ)架構(gòu)。2011年,EMC公司將其Symmetrix VMAX產(chǎn)品定位為主推產(chǎn)品,意味著其SAN存儲(chǔ)產(chǎn)品由原來的雙控VNX產(chǎn)品系列轉(zhuǎn)化為網(wǎng)狀多控集群架構(gòu)。
這個(gè)變化導(dǎo)致了SAN存儲(chǔ)在吞吐量、性能、高可用、容量等方面都得到了質(zhì)的飛躍。
2).虛擬存儲(chǔ)卷的池化技術(shù)越來越精湛,映射單元粒度變小、數(shù)據(jù)分散度提高。
最初基于雙控模式的SAN存儲(chǔ)的虛擬存儲(chǔ)卷一般是基于物理磁盤組基礎(chǔ)之上做一次分配和映射形成虛擬卷,后續(xù)的SAN存儲(chǔ)虛擬卷逐漸發(fā)展為多層映射并且最小的物理存儲(chǔ)單元粒度越來越小。
以EMC的VMAX為例,其存儲(chǔ)卷Virtual Volume到Physical Disk之間除了有DiskGroup的概念,還有Physical Device、Virtual Device、Storage Pool、Thin Pool等多個(gè)對(duì)象,正是這些對(duì)象的多層映射使得提供存儲(chǔ)服務(wù)的虛擬存儲(chǔ)卷所對(duì)應(yīng)的實(shí)際物理存儲(chǔ)空間映射到了成百上千塊物理磁盤的小粒度存儲(chǔ)單元空間上。
這種技術(shù)的改變一方面逐漸消除熱點(diǎn)數(shù)據(jù)集中在局部物理存儲(chǔ)空間的可能性,提高了數(shù)據(jù)讀寫的整體性能。另外一方面,數(shù)據(jù)在物理存儲(chǔ)磁盤上的分散程度提高,可能面臨的物理磁盤故障對(duì)數(shù)據(jù)安全性影響變小,提高故障數(shù)據(jù)的恢復(fù)速度以及降低數(shù)據(jù)恢復(fù)過程對(duì)存儲(chǔ)系統(tǒng)的性能影響。
3).存儲(chǔ)管理軟件功能越來越完善,越來越強(qiáng)大。
隨著高端SAN存儲(chǔ)的不斷發(fā)展,尤其是2015年之后的發(fā)展階段,高端SAN存儲(chǔ)上逐漸增加了數(shù)據(jù)空間利用率管理、數(shù)據(jù)保護(hù)管理、數(shù)據(jù)性能管理等方面的各種軟件功能。
數(shù)據(jù)消重功能:其功能就是在存儲(chǔ)端將上層應(yīng)用存儲(chǔ)的重復(fù)數(shù)據(jù)保留一份,從而提高物理空間的利用率。其本質(zhì)上是以BLOCK為單位進(jìn)行數(shù)據(jù)對(duì)比,僅在物理存儲(chǔ)空間保存一份,而在虛擬存儲(chǔ)卷到物理空間的映射上增加指針的軟件技術(shù)。
數(shù)據(jù)壓縮功能:其功能就是在存儲(chǔ)端將讀寫訪問頻度較低的數(shù)據(jù),基于壓縮算法進(jìn)行數(shù)據(jù)壓縮,提高物理空間的利用率。具體壓縮算法有很多,壓縮類型也包括有損和無損兩種。但是無論是什么算法什么類型,其對(duì)CPU的消耗是必然的,如果剛剛壓縮的數(shù)據(jù)又被訪問到的概率越高,解壓的代價(jià)就越高。
克隆技術(shù)和快照技術(shù):存儲(chǔ)卷的克隆技術(shù)是指在存儲(chǔ)設(shè)備上,基于存儲(chǔ)卷的Block存儲(chǔ)單元而進(jìn)行完全復(fù)制形成的完全相同的存儲(chǔ)卷,用來做數(shù)據(jù)備份恢復(fù)??煺占夹g(shù)是指基于某個(gè)存儲(chǔ)卷的Block存儲(chǔ)單元而進(jìn)行指針映射而形成一個(gè)虛擬的存儲(chǔ)卷,同樣用來進(jìn)行數(shù)據(jù)備份恢復(fù)。需要注意的是克隆出來的卷雖然數(shù)據(jù)完全一樣,但是存儲(chǔ)卷的元數(shù)據(jù)信息是不一樣的,采用存儲(chǔ)卷直接替換方式進(jìn)行系統(tǒng)恢復(fù)的時(shí)候需要考慮應(yīng)用對(duì)存儲(chǔ)卷元數(shù)據(jù)的識(shí)別??煺占夹g(shù)是一種修改即拷貝的機(jī)制,使用時(shí)需要注意數(shù)據(jù)修改對(duì)存儲(chǔ)空間使用的影響。
瘦存儲(chǔ)卷技術(shù):瘦存儲(chǔ)卷技術(shù)也就是存儲(chǔ)設(shè)備是否支持使用Thin模式。分配卷時(shí)并不分配真實(shí)容量的物理空間,而是在存儲(chǔ)卷需要存儲(chǔ)數(shù)據(jù)的時(shí)候才會(huì)逐漸分配物理空間。同樣也是基于企業(yè)TCO的考慮。將應(yīng)用在一段時(shí)間內(nèi)可能需要的存儲(chǔ)規(guī)模劃定好,但是真實(shí)的物理存儲(chǔ)空間是逐年擴(kuò)容投入并且是按需投入。但是需要考慮使用溢出的風(fēng)險(xiǎn)。
數(shù)據(jù)分層技術(shù):通俗理解數(shù)據(jù)分層技術(shù)就是把正確性能要求的數(shù)據(jù)放在正確性能的存儲(chǔ)載體上。存儲(chǔ)磁盤有快有慢,成本與性能成正比,為了平衡TCO與性能要求的不可預(yù)見性,通過軟件算法自動(dòng)將不同性能要求的數(shù)據(jù)放在不同讀寫速度的物理磁盤上。
4).隨著存儲(chǔ)虛擬化技術(shù)的發(fā)展,其逐漸成為企業(yè)容災(zāi)框架的關(guān)鍵技術(shù)。
SNIA(Storage Networking Industry Association)存儲(chǔ)網(wǎng)絡(luò)工業(yè)協(xié)會(huì)對(duì)存儲(chǔ)虛擬化是這樣定義的:通過將一個(gè)或多個(gè)目標(biāo)(Target)服務(wù)或功能與其它附加的功能集成,統(tǒng)一提供有用的全面功能服務(wù)。通俗講,虛擬存儲(chǔ)技術(shù)將底層存儲(chǔ)設(shè)備進(jìn)行抽象化統(tǒng)一管理,向服務(wù)器層屏蔽存儲(chǔ)設(shè)備硬件的特殊性,而只保留其統(tǒng)一的邏輯特性,從而實(shí)現(xiàn)了存儲(chǔ)系統(tǒng)集中、統(tǒng)一而又方便的管理。對(duì)比一個(gè)計(jì)算機(jī)系統(tǒng)來說,整個(gè)存儲(chǔ)系統(tǒng)中的虛擬存儲(chǔ)部分就像計(jì)算機(jī)系統(tǒng)中的操作系統(tǒng),對(duì)下層管理著各種特殊而具體的設(shè)備,而對(duì)上層則提供相對(duì)統(tǒng)一的運(yùn)行環(huán)境和資源使用方式。
圖2.3存儲(chǔ)虛擬化架構(gòu)圖
SAN Storage Virtual Gateway Layer
通過SAN網(wǎng)絡(luò)的ZONE隔離策略將SAN網(wǎng)絡(luò)在邏輯上隔離為前后端網(wǎng)絡(luò),前端包括服務(wù)器和存儲(chǔ)虛擬化網(wǎng)關(guān)設(shè)備,后端包括存儲(chǔ)虛擬化網(wǎng)關(guān)設(shè)備和SAN存儲(chǔ)設(shè)備;
存儲(chǔ)虛擬化網(wǎng)關(guān)層代替SAN存儲(chǔ)向服務(wù)器提供存儲(chǔ)卷服務(wù);
存儲(chǔ)虛擬化層提供給服務(wù)器的存儲(chǔ)卷是經(jīng)過了整合或者鏡像之后的虛擬化卷。
從SAN存儲(chǔ)的虛擬化技術(shù)發(fā)展歷史來看,其實(shí)最初的虛擬化技術(shù)主要的是實(shí)現(xiàn)存儲(chǔ)卷的集成功能,更多的是企業(yè)存儲(chǔ)立舊的目的。例如IBM的V系列存儲(chǔ)最初的存儲(chǔ)卷虛擬化功能就是要實(shí)現(xiàn)對(duì)IBM系列老舊存儲(chǔ)的集成。V系列存儲(chǔ)的虛擬存儲(chǔ)卷可以由多個(gè)物理存儲(chǔ)設(shè)備上的物理卷組成。但是隨著IBM SVC產(chǎn)品以及EMC VPlex等產(chǎn)品的出現(xiàn),存儲(chǔ)虛擬化技術(shù)主要用來做1:1鏡像存儲(chǔ)卷實(shí)現(xiàn)數(shù)據(jù)在不同區(qū)域的高可用保護(hù)或者是容災(zāi)保護(hù)。
另外一方面,存儲(chǔ)控制器的虛擬化發(fā)展模式更加促進(jìn)了容災(zāi)技術(shù)的逐步完善。近些年來隨著計(jì)算虛擬化的不斷發(fā)展,操作系統(tǒng)虛擬化及容器的概念不僅僅改變了服務(wù)器的使用習(xí)慣,而且部分引入到了存儲(chǔ)操作系統(tǒng)的管理當(dāng)中,存儲(chǔ)控制器由物理節(jié)點(diǎn)為虛擬節(jié)點(diǎn),可以對(duì)控制器的網(wǎng)絡(luò)、存儲(chǔ)卷、緩存、CPU等資源動(dòng)態(tài)重組并實(shí)現(xiàn)在物理硬件上的平滑遷移,最終提高容災(zāi)系統(tǒng)的RPO。例如Netapp的FAS產(chǎn)品系列的Data Ontap。
5).存儲(chǔ)架構(gòu)逐漸走向整合模式。
存儲(chǔ)架構(gòu)逐漸走向統(tǒng)一整合的模式主要體現(xiàn)在3個(gè)方面:
NAS存儲(chǔ)功能和SAN存儲(chǔ)功能逐漸走向整合。同時(shí)兼?zhèn)銷AS功能和SAN存儲(chǔ)功能的產(chǎn)品逐漸增多,Netapp由最開始的NAS專注者轉(zhuǎn)變?yōu)榻y(tǒng)一存儲(chǔ)提供者,從FAS8000系列開始,其產(chǎn)品兼?zhèn)銷AS、SAN以及存儲(chǔ)虛擬化容災(zāi)功能。EMC VMAX 10K還僅僅是一個(gè)獨(dú)立的SAN存儲(chǔ),從VMAX 20K開始已經(jīng)轉(zhuǎn)變?yōu)榧婢逳AS功能的統(tǒng)一化存儲(chǔ)產(chǎn)品。
高性能小容量磁盤介質(zhì)與低性能大容量磁盤介質(zhì)走向整合。SAN存儲(chǔ)發(fā)展到2015年前后,細(xì)數(shù)各家存儲(chǔ)設(shè)備廠商的高端存儲(chǔ)設(shè)備,基本上分層管理技術(shù)(FAST)已經(jīng)成為其必備功能。分層技術(shù)已經(jīng)發(fā)展到可以針對(duì)分層的時(shí)間窗口以及分層的性能指標(biāo)等多個(gè)維度進(jìn)行自定義。企業(yè)也越來越多的開始使用這種技術(shù)來平衡企業(yè)存儲(chǔ)投入TCO。
存儲(chǔ)運(yùn)維管理走向統(tǒng)一化。在存儲(chǔ)虛擬化技術(shù)的基礎(chǔ)之上,越來越多高端存儲(chǔ)產(chǎn)品具備對(duì)不同類型甚至不同品牌的存儲(chǔ)產(chǎn)品進(jìn)行管理上的整合。以EMC的VPlex為例,其不僅僅可以兼容EMC自己的存儲(chǔ)產(chǎn)品系列,而且可以兼容很多其他品牌的存儲(chǔ)產(chǎn)品,然后在其之上形成一層虛擬化存儲(chǔ)抽象層,從而實(shí)現(xiàn)存儲(chǔ)管理工作的統(tǒng)一化和便捷化。
三、軟件定義存儲(chǔ)的興起和存儲(chǔ)架構(gòu)的百花齊放年代
伴隨著2010年之后的互聯(lián)網(wǎng)迅速發(fā)展,企業(yè)的應(yīng)用發(fā)生了很大的變化。
應(yīng)用訪問模式上,伴隨著Web1.0、2.0、3.0的飛速發(fā)展,越來越多的業(yè)務(wù)模式轉(zhuǎn)變?yōu)锽S模式,業(yè)務(wù)訪問的并發(fā)量上發(fā)生了有史以來最大量級(jí)的升級(jí)。業(yè)務(wù)特性上,分析類業(yè)務(wù)劇增,依靠數(shù)據(jù)分析挖掘商機(jī)的時(shí)代到來。大數(shù)據(jù)、BI等新型業(yè)務(wù)系統(tǒng)紛紛在企業(yè)信息系統(tǒng)群中上線,數(shù)據(jù)本身的再生產(chǎn)價(jià)值能力受到空前的重視。業(yè)務(wù)跨度上,伴隨著云計(jì)算的發(fā)展,越來越多的業(yè)務(wù)成為互聯(lián)網(wǎng)業(yè)務(wù),不僅僅需要從云端獲取必須的數(shù)據(jù),而且需要從云端獲取海量數(shù)據(jù)生產(chǎn)加工之后的價(jià)值數(shù)據(jù)。企業(yè)數(shù)據(jù)上,越來越多的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)形態(tài)涌入企業(yè)應(yīng)用系統(tǒng);數(shù)據(jù)量級(jí)呈爆發(fā)式的增長(zhǎng);數(shù)據(jù)生命周期管理由原來的在線離線為主的模式轉(zhuǎn)變?yōu)槎嗌芷诘哪J?;?shù)據(jù)分析成為企業(yè)必備的核心后臺(tái)。
在這些變化的驅(qū)動(dòng)下,傳統(tǒng)SAN存儲(chǔ)架構(gòu)已無法滿足某些企業(yè)數(shù)據(jù)存儲(chǔ)的靈活性、擴(kuò)展性、并發(fā)性等方面的需求,于是一些互聯(lián)網(wǎng)企業(yè)率先開啟軟件定義的應(yīng)用之路。從2014到2019的五年時(shí)間內(nèi),軟件定義存儲(chǔ)的市場(chǎng)將從14億美元增長(zhǎng)到62億美元以上,年復(fù)合增長(zhǎng)率高達(dá)35%。而2017年也被譽(yù)為是軟件定義技術(shù)的元年。Apache Cassandra、CouchDB、MongoDB、Redis等一系列NoSQL數(shù)據(jù)庫軟件解決方案逐步走進(jìn)互聯(lián)網(wǎng)企業(yè)并且成熟,Ceph、Swift、GlusterFS等對(duì)象及文件系統(tǒng)類軟件存儲(chǔ)解決方案也逐步走進(jìn)企業(yè)的IT試驗(yàn)田。
說了這么多,究竟什么是軟件定義存儲(chǔ)(SDS,Software Defined Storage)?
軟件定義簡(jiǎn)單來說就是指資源由軟件自動(dòng)控制,通過抽象、池化和自動(dòng)化等一系列處理后,將標(biāo)準(zhǔn)服務(wù)器內(nèi)置存儲(chǔ)、直連存儲(chǔ),外置存儲(chǔ),或者云存儲(chǔ)等等的存儲(chǔ)資源整合起來,實(shí)現(xiàn)應(yīng)用感知或者基于策略驅(qū)動(dòng)的部署、變更和管理,最終達(dá)到存儲(chǔ)即服務(wù)的目標(biāo)。
圖1.1 SDS存儲(chǔ)框架圖
SDS(Software Defined Storage)
從圖中的框架來看,首先需要明確的是SDS并不是某一款具體的存儲(chǔ)產(chǎn)品,而是一個(gè)技術(shù)框架,一種技術(shù)理念。從下往上,共有四個(gè)層次:存儲(chǔ)設(shè)備層是最底層的數(shù)據(jù)存儲(chǔ)物理載體,在這種框架下,對(duì)物理存儲(chǔ)載體的要求空前放寬,任何性能、任何形態(tài)、任何容量、任何連接都可以接受。只要他們具備一個(gè)條件即可,那就是可以被上層操作系統(tǒng)識(shí)別為可用存儲(chǔ)介質(zhì),可以定義為上層操作系統(tǒng)的可用設(shè)備。操作系統(tǒng)層承載著兩方面的作用,一方面需要識(shí)別到底層可用的存儲(chǔ)設(shè)備,另外一方面要提供軟件運(yùn)行的環(huán)境。SDS APS也就是存儲(chǔ)軟件層,無論是什么樣的存儲(chǔ)軟件,它只是作為操作系統(tǒng)環(huán)境運(yùn)行的一個(gè)軟件,其特殊之處在于它可以將系統(tǒng)識(shí)別到的存儲(chǔ)設(shè)備進(jìn)行整合并以應(yīng)用可以操作的接口提供給應(yīng)用。最上層的Data RW API,也就是數(shù)據(jù)的讀寫接口,它可以按照應(yīng)用可以讀寫的數(shù)據(jù)庫語言接口方式、數(shù)據(jù)文件方式或者是普通的文件系統(tǒng)、對(duì)象接口、Block存儲(chǔ)接口等方式提供給應(yīng)用程序所用。
為什么軟件定義存儲(chǔ)會(huì)在2014年之后逐漸興盛?
首先,任何事務(wù)都不是孤立產(chǎn)生的,SDS同樣是這樣的。當(dāng)現(xiàn)有環(huán)境下的事物無法滿足特定需求時(shí),人類必然會(huì)探求新的解決方案。當(dāng)傳統(tǒng)SAN存儲(chǔ)無法解決互聯(lián)網(wǎng)帶來的特殊數(shù)據(jù)形態(tài)存儲(chǔ)需求,無法解決數(shù)據(jù)量暴漲帶來的存儲(chǔ)TCO困惑,無法解決突如其來的并發(fā)量帶來的訪問性能瓶頸的時(shí)候,一些互聯(lián)網(wǎng)企業(yè)開始將一些塵封在實(shí)驗(yàn)室或者大學(xué)研究室當(dāng)中的思路探索性的應(yīng)用到了自己的新環(huán)境。例如,谷歌在2003、2004、2006年僅以學(xué)術(shù)共享形式發(fā)表的Google FS、MapReduce、BigTable三篇論文,十年之后卻成為互聯(lián)網(wǎng)企業(yè)實(shí)際應(yīng)用的先驅(qū)模板。而且隨著企業(yè)業(yè)務(wù)模式的不斷發(fā)展,這些源代碼經(jīng)歷了多次有針對(duì)性的優(yōu)化和改造,解決了很多新的場(chǎng)景問題。
在SDS興起的時(shí)代,存儲(chǔ)架構(gòu)技術(shù)有了哪些新的變化和發(fā)展?
1.新型數(shù)據(jù)庫類(NOSQL)的數(shù)據(jù)存儲(chǔ)解決方案不斷涌現(xiàn)
互聯(lián)網(wǎng)業(yè)務(wù)高度并發(fā)的場(chǎng)景下,Redis、Memcache在逐漸成為主流的鍵值型緩存解決方案;面對(duì)互聯(lián)網(wǎng)的海量HTML網(wǎng)頁型的數(shù)據(jù)場(chǎng)景,Hbase等系列列式數(shù)據(jù)庫成為主流解決方案;面對(duì)實(shí)體關(guān)系類的社交數(shù)據(jù)場(chǎng)景,Nego4j系列圖形數(shù)據(jù)庫逐漸走進(jìn)一些以社交業(yè)務(wù)為主的互聯(lián)網(wǎng)企業(yè);MogoDB系列文檔數(shù)據(jù)庫逐漸替代以NAS及內(nèi)容管理軟件組合起來的影像類解決方案。
總而言之,新數(shù)據(jù)類型的出現(xiàn)激發(fā)了很多基于新型數(shù)據(jù)類型以及新的數(shù)據(jù)存取及訪問特點(diǎn)而產(chǎn)生的新數(shù)據(jù)存儲(chǔ)需求,而這些新的數(shù)據(jù)存儲(chǔ)需求又促生了這些新的NOSQL數(shù)據(jù)庫解決方案。
2.超融合架構(gòu)技術(shù)在制造行業(yè)應(yīng)用的不斷擴(kuò)展
以提供存儲(chǔ)產(chǎn)品的廠家不可能坐視自己的市場(chǎng)份額逐漸減少,于是在百花齊放的年代他們開始認(rèn)真審視自己的產(chǎn)品和時(shí)代的特點(diǎn),針對(duì)于IT自控能力不足,但是又希望能夠適應(yīng)時(shí)代特點(diǎn),分享新技術(shù)帶來收益的一部分企業(yè)群體,提出了超融合架構(gòu)解決方案。以起初的EMC VxRail、Nutanix、Cisco HyperFlex等為代表發(fā)展到華為、華三、聯(lián)想、深信服、SmartX等百花齊放的階段,場(chǎng)面可謂壯觀。
眾多的超融合解決方案在存儲(chǔ)層面,基于vSan、HDFS、HXDP、Ceph等軟件定義存儲(chǔ)原型進(jìn)行優(yōu)化改造并封裝成通用商業(yè)產(chǎn)品融入超融合架構(gòu)。
3.對(duì)象存儲(chǔ)的應(yīng)用由媒體視頻行業(yè)擴(kuò)展到制造、交通、政府以及金融等各個(gè)行業(yè)
雖然互聯(lián)網(wǎng)應(yīng)用對(duì)性能和容量的要求極高,但是對(duì)其它特性卻沒什么特別的要求。甚至可以說它對(duì)其它特性基本上沒有太多要求。由于其存儲(chǔ)的主要是圖片,而且對(duì)圖片的存儲(chǔ)是一次存儲(chǔ),多次訪問,沒有修改。在這種需求的驅(qū)動(dòng)下,對(duì)象存儲(chǔ)解決方案應(yīng)運(yùn)而生。2004-2009年間,出現(xiàn)了真正的對(duì)象存儲(chǔ)先鋒。主要的廠商為Caringo,Cleversafe,Amplidata,Compuverde,DDN(Bucket File System)等。Ceph是2014年通過Inktank以1.75億美元收購,而Gluster則早在2011年就被紅帽以1.36億美元收購。對(duì)象存儲(chǔ)應(yīng)用領(lǐng)域也從最初的互聯(lián)網(wǎng)行業(yè)的圖片、視頻存儲(chǔ)覆蓋到了各行各業(yè)的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)領(lǐng)域。
4.SAN存儲(chǔ)從通用企業(yè)級(jí)存儲(chǔ)解決方案逐漸走向高性能結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)解決方案場(chǎng)景
在這個(gè)特殊的時(shí)代,隨著數(shù)據(jù)存儲(chǔ)的各種新需求出現(xiàn),存儲(chǔ)架構(gòu)也呈現(xiàn)百花齊放的狀態(tài)。獨(dú)霸江湖數(shù)十年的SAN存儲(chǔ)終于有了更聚焦的定位。盡管很多數(shù)據(jù)存儲(chǔ)場(chǎng)景找到了更適合的軟件定義存儲(chǔ)產(chǎn)品或是對(duì)象存儲(chǔ)產(chǎn)品,但是以結(jié)構(gòu)化數(shù)據(jù)為存儲(chǔ)對(duì)象的傳統(tǒng)應(yīng)用場(chǎng)景似乎還是非SAN存儲(chǔ)莫屬。由于結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)與Block存儲(chǔ)的天然契合性、結(jié)構(gòu)化數(shù)據(jù)讀取性能的要求以及結(jié)構(gòu)化數(shù)據(jù)對(duì)并發(fā)控制的嚴(yán)格要求導(dǎo)致SAN存儲(chǔ)依然獨(dú)樹一幟。于是越來越多的企業(yè)將SAN存儲(chǔ)的定位更明確化清晰化。
四、存儲(chǔ)架構(gòu)技術(shù)沉淀并分類聚焦的時(shí)代
近些年來,伴隨著一些歷史事件的發(fā)生,存儲(chǔ)架構(gòu)技術(shù)的發(fā)展伴隨著百花爭(zhēng)鳴的喧囂逐漸走向了安靜。該淘汰的淘汰,該沉淀的沉淀,最終呈現(xiàn)出清晰的發(fā)展脈絡(luò)。首先我們來看一些有意義的歷史事件:
2010年:EMC收購Isilon;
2012年:VMware提出SDDC(軟件定義數(shù)據(jù)中心)和SDS(軟件定義存儲(chǔ))的概念,之后推出SDS產(chǎn)品–Virtual SAN的預(yù)覽版;
2013年:Avago收購LSI;
2014年:閃迪收購Fusion-io;
2015年:XSKY成立;
2016年:IBM收購對(duì)象存儲(chǔ);HCI(超融合)概念提出者Nutanix上市;
2017年:HPE收購Nimble Storage;
2018年:微軟收購混合云數(shù)據(jù)存儲(chǔ)公司Avere Systems;
2019年:AWS收購E8 Storage;谷歌收購存儲(chǔ)企業(yè)Elastifile;IBM收購RedHat Ceph和Gluster。
存儲(chǔ)世界發(fā)生的這些大事件推動(dòng)著企業(yè)的存儲(chǔ)架構(gòu)技術(shù)變革也呈現(xiàn)出一系列清晰的脈絡(luò):
1.分布式成為企業(yè)存儲(chǔ)架構(gòu)追求的主要目標(biāo)之一
根據(jù)Gartner對(duì)于2020年全球外置存儲(chǔ)市場(chǎng)統(tǒng)計(jì)來看,分布式存儲(chǔ)發(fā)貨容量13ZB、銷售額33億$。2018年到2023年期間,中國分布式存儲(chǔ)市場(chǎng)年均復(fù)合增長(zhǎng)率將達(dá)到22.4%。不難看出,在數(shù)據(jù)量不斷暴漲和國產(chǎn)化趨勢(shì)的雙重驅(qū)動(dòng)下,分布式存儲(chǔ)逐漸成為企業(yè)追求的目標(biāo)之一。
圖2.1 DSS存儲(chǔ)框架圖
從架構(gòu)設(shè)計(jì)角度看,大規(guī)模數(shù)據(jù)量的場(chǎng)景下是分布式架構(gòu)最擅長(zhǎng)的地方。傳統(tǒng)存儲(chǔ)陣列采用Scale-up架構(gòu),評(píng)價(jià)其架構(gòu)設(shè)計(jì)好壞的標(biāo)準(zhǔn)是在有限的處理器、內(nèi)存資源下提供更高的可靠性和性能,管理更大的存儲(chǔ)容量。分布式存儲(chǔ)采用Scale-out架構(gòu),以處理器、內(nèi)存、硬盤構(gòu)成一個(gè)個(gè)獨(dú)立的擴(kuò)展單元,客戶端經(jīng)由路由節(jié)點(diǎn)直接從各個(gè)獨(dú)立擴(kuò)展單元獲取所需要的數(shù)據(jù)片段,其架構(gòu)設(shè)計(jì)追求的目標(biāo)是更大的擴(kuò)展能力。從企業(yè)TCO角度看,雖然存儲(chǔ)廠商暫時(shí)陷入比拼硬件成本的惡性競(jìng)爭(zhēng)狀態(tài),專業(yè)的軟件價(jià)值暫未得到應(yīng)有認(rèn)可。但是越是海量數(shù)據(jù)的場(chǎng)景,分布式存儲(chǔ)的成本優(yōu)勢(shì)越突出。
2.SAN存儲(chǔ)領(lǐng)域陸續(xù)將全閃存儲(chǔ)作為主流SAN存儲(chǔ)產(chǎn)品推出
全閃存儲(chǔ)指全部由固態(tài)存儲(chǔ)介質(zhì)構(gòu)成的獨(dú)立存儲(chǔ)陣列或設(shè)備。全閃存儲(chǔ)的高速發(fā)展,既是新應(yīng)用對(duì)性能需求驅(qū)動(dòng)的結(jié)果,也是閃存技術(shù)不斷創(chuàng)新的成果。近些年來,各大存儲(chǔ)廠商均推出了全閃存儲(chǔ)產(chǎn)品,相較傳統(tǒng)機(jī)械存儲(chǔ),在存儲(chǔ)性能委員會(huì)(SPC)的SPC-1基準(zhǔn)下,業(yè)務(wù)性能提升了5倍;在數(shù)據(jù)庫場(chǎng)景下,業(yè)務(wù)性能提升了10倍;在虛擬桌面場(chǎng)景下,啟動(dòng)響應(yīng)時(shí)間縮短80%。
技術(shù)上與傳統(tǒng)的機(jī)械硬盤相比較,時(shí)延從2ms降低到0.02ms,5年返還率從13.4%降低到0.8%,功率從10W降低到3W。這三大指標(biāo)決定著全閃存儲(chǔ)從性能、穩(wěn)定性、節(jié)能三方面都得到了質(zhì)的提升。TCO投入上與傳統(tǒng)的SAN存儲(chǔ)相比,二者之間的差距逐漸縮小。綜合評(píng)估性價(jià)比的話,從實(shí)際印證的結(jié)果來看,企業(yè)越來越偏向于全閃存儲(chǔ),尤其是在關(guān)系數(shù)據(jù)庫的關(guān)鍵應(yīng)用上。
3.存儲(chǔ)平臺(tái)的數(shù)據(jù)分析支持能力逐漸被提到相當(dāng)高度
存儲(chǔ)平臺(tái)的數(shù)據(jù)分析和挖掘能力來源于電商業(yè)務(wù)的驅(qū)動(dòng),最初的電商行業(yè)主要依靠海量用戶數(shù)據(jù)的分析來挖掘其潛在的商業(yè)價(jià)值。近些年來數(shù)據(jù)的價(jià)值分析已經(jīng)嵌入到各行各業(yè),金融行業(yè)用這些海量的數(shù)據(jù)來分析反洗錢、信貸管理、監(jiān)管報(bào)送等業(yè)務(wù),保險(xiǎn)行業(yè)用其客戶畫像數(shù)據(jù)和海量的關(guān)聯(lián)數(shù)據(jù)分析來計(jì)算客戶的保險(xiǎn)系數(shù),制造行業(yè)用其海量的過程數(shù)據(jù)來提高產(chǎn)品的良率,安保行業(yè)用海量的視頻數(shù)據(jù)來智能比對(duì)、精準(zhǔn)追蹤、打擊犯罪,交通行業(yè)用海量的交通數(shù)據(jù)做智能交通調(diào)度等。
總而言之,數(shù)據(jù)存儲(chǔ)平臺(tái)不再是一個(gè)孤立的載體,而是向開放的、智能的、可再利用的中間平臺(tái)過渡,很多企業(yè)開始打造整合多種功能于一體的的數(shù)據(jù)中臺(tái)和后臺(tái)。
4.云存儲(chǔ)架構(gòu)逐漸融入企業(yè)IT架構(gòu)當(dāng)中
面對(duì)數(shù)據(jù)增長(zhǎng)帶來的挑戰(zhàn),很多企業(yè)現(xiàn)有的FTP、NAS、Windows共享等存儲(chǔ)共享方式已逐漸滿足不了企業(yè)數(shù)據(jù)存儲(chǔ)和管理的業(yè)務(wù)需求。據(jù)IDC數(shù)據(jù)顯示,到2025年,全球創(chuàng)建、獲取和復(fù)制的數(shù)據(jù)量將增至175ZB,其中,企業(yè)存儲(chǔ)的數(shù)據(jù)量將會(huì)占據(jù)全球總數(shù)據(jù)量80%以上。這一數(shù)據(jù)表明企業(yè)正迅速成為生產(chǎn)數(shù)據(jù)和管理數(shù)據(jù)的主要載體,加上目前我國正處于云計(jì)算的高速發(fā)展時(shí)期,企業(yè)上云成為必然趨勢(shì)。越來越多的企業(yè)選擇將自己的日常辦公數(shù)據(jù)、備份數(shù)據(jù)、歸檔數(shù)據(jù)、靜態(tài)歷史數(shù)據(jù)等活動(dòng)性不強(qiáng)的海量數(shù)據(jù)移入云存儲(chǔ)資源池甚至直接推向云端。
從企業(yè)運(yùn)維管理的角度來講,伴隨著云計(jì)算的不斷推廣發(fā)展,企業(yè)IT運(yùn)維管理必然走向自動(dòng)化,那么存儲(chǔ)作為云端必不可少的重要資源,它的使用和管理也必然融入企業(yè)云。