【導(dǎo)讀】本文回顧了30年間存儲架構(gòu)技術(shù)的發(fā)展演變,從原始階段、SAN&NAS共存,到SDS興起、百花齊放,直至沉淀并分類聚焦時(shí)代來臨,希望能為讀者帶來對趨勢的清晰認(rèn)識和深入思考。將分為上下兩篇推送,歡迎閱讀。
【作者】趙海
前言
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)已經(jīng)成為企業(yè)的戰(zhàn)略資源,如何存儲數(shù)據(jù)以及如何利用數(shù)據(jù)也已成為企業(yè)科技部門研究的熱點(diǎn)話題,尤其是伴隨著近些年的互聯(lián)網(wǎng)革命,數(shù)據(jù)存儲世界也發(fā)生了翻天覆地的變化,出現(xiàn)了很多新的名詞、新的產(chǎn)品、新的趨勢等等。面對這些眼花繚亂的事物,如何抽絲剝繭抓住事物的本質(zhì)其實(shí)是從事技術(shù)研究工作的首要任務(wù)。而對于分布式存儲技術(shù)這個領(lǐng)域,我認(rèn)為需要從縱向的存儲技術(shù)發(fā)展脈絡(luò)和橫向的主流技術(shù)對比兩個方面來深刻認(rèn)識。
一、存儲技術(shù)的原始階段
如果以具備獨(dú)立存儲設(shè)備為界限,我們暫且追溯到DAS存儲的發(fā)展階段,主要是90年代之前的周期。這個階段的應(yīng)用系統(tǒng)主要是單機(jī)業(yè)務(wù)系統(tǒng),相互之間獨(dú)立,所需存儲的數(shù)據(jù)量也非常少。但是這個時(shí)候數(shù)據(jù)的安全性已經(jīng)提升到一定高度,于是基于數(shù)據(jù)的安全性考慮,將業(yè)務(wù)數(shù)據(jù)獨(dú)立,產(chǎn)生了DAS存儲架構(gòu)。
圖1.1 DAS存儲架構(gòu)圖
DAS(Direct-Attached Storage)
1.通過FC、SCSI、SAS等協(xié)議與主機(jī)相連接,提供存儲服務(wù);
2.DAS存儲作為單獨(dú)的存儲平臺,可以配置RAID冗余策略來保護(hù)數(shù)據(jù);
DAS存儲架構(gòu)與之前沒有獨(dú)立存儲平臺的服務(wù)器IT架構(gòu)相比較,解決了什么樣的問題?
任何優(yōu)勢都是相對于特定的歷史時(shí)期而言的,存儲架構(gòu)的優(yōu)勢也是站在特定的歷史時(shí)期下來說的。在那個特定的歷史時(shí)期下,它實(shí)現(xiàn)了服務(wù)器系統(tǒng)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的分離,相比較之前的服務(wù)器內(nèi)部存儲架構(gòu)來講,從數(shù)據(jù)的安全性、靈活性、擴(kuò)展性方面都有了本質(zhì)的提高。
1.安全性方面實(shí)現(xiàn)了系統(tǒng)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的隔離;
2.靈活性方面去掉了與服務(wù)器系統(tǒng)本身的耦合性;
3.擴(kuò)展性上實(shí)現(xiàn)了從若干塊服務(wù)器機(jī)械硬盤的容量到一組甚至幾組硬盤的容量規(guī)模。
DAS存儲架構(gòu)在自己的時(shí)代又經(jīng)歷了哪些進(jìn)化?
在這個特定的時(shí)代,無論DAS存儲架構(gòu)如何進(jìn)化,都只是量的變化,并沒有發(fā)生質(zhì)的改變。例如連接協(xié)議的改變,由最初的一條SCSI線逐漸進(jìn)化為可以冗余的FC光纖線,結(jié)合上多路徑聚合技術(shù)的應(yīng)用,實(shí)現(xiàn)了物理鏈路的高可用;例如DAS存儲產(chǎn)品本身的最大容量由最初的單存儲柜容量變成了多柜容量;例如如DAS存儲的冗余策略也從簡單的RAID1、RAID1+0變?yōu)榱烁S富的冗余策略;例如數(shù)據(jù)分布策略逐漸優(yōu)化到更小粒度的平均分布策略。
二、SAN&NAS共存的發(fā)展階段
伴隨著1995年博科(Brocade)公司的誕生,存儲區(qū)域網(wǎng)絡(luò)(SAN)的概念走進(jìn)存儲世界,1999年EMC發(fā)布第一款支持SAN存儲區(qū)域網(wǎng)絡(luò)的存儲產(chǎn)品。從此之后,SAN存儲便成為企業(yè)存儲的主導(dǎo)。
80年代,Novell提出了Netware操作系統(tǒng)和NCP(網(wǎng)絡(luò)核心協(xié)議);Sun推出了針對Unix系統(tǒng)的網(wǎng)絡(luò)文件系統(tǒng)(NFS)協(xié)議。1993年,NetApp推出了一個NAS設(shè)備。1996年,NetApp又推出了能夠同時(shí)具備支持CIFS&NFS協(xié)議的存儲設(shè)備,也就是企業(yè)級的網(wǎng)絡(luò)附加存儲(NAS)存儲設(shè)備。
圖2.1 SAN存儲架構(gòu)圖
SAN(Storage Aread Network)Storage
通過FC協(xié)議與主機(jī)的HBA卡相連接,提供數(shù)據(jù)存儲服務(wù);
可以提供Block存儲載體;
可以實(shí)現(xiàn)多鏈路高性能及高可用讀寫的數(shù)據(jù)存儲服務(wù);
可以實(shí)現(xiàn)遠(yuǎn)距離的數(shù)據(jù)存儲服務(wù);
圖2.2 NAS存儲架構(gòu)圖
NAS(Network-Attached Storage)
通過以太網(wǎng)絡(luò)協(xié)議與主機(jī)相連接,提供數(shù)據(jù)存儲服務(wù);
只能提供文件系統(tǒng)作為數(shù)據(jù)存儲服務(wù)的載體;
可以實(shí)現(xiàn)文件系統(tǒng)級別的數(shù)據(jù)共享服務(wù);
可以實(shí)現(xiàn)遠(yuǎn)超遠(yuǎn)距離的數(shù)據(jù)存儲服務(wù)。
為什么NAS和SAN存儲逐漸取代了DAS存儲?
隨著信息化的不斷發(fā)展,應(yīng)用系統(tǒng)逐漸由單機(jī)式的業(yè)務(wù)模式發(fā)展為CS/BS的前后臺組合模式,業(yè)務(wù)系統(tǒng)之間的耦合性越來越強(qiáng);數(shù)據(jù)的重要性逐漸凸顯,對企業(yè)存儲的安全性和穩(wěn)定性有更高要求;數(shù)據(jù)量的增長不再是定格在某個業(yè)務(wù)系統(tǒng)的模式,更多的是系統(tǒng)群的數(shù)據(jù)增長模式,而這種變化對企業(yè)存儲的靈活性、擴(kuò)展性以及容量本身都提出了更高的要求。在這些變化的驅(qū)動下,NAS和SAN存儲必然取代DAS。
SAN存儲與服務(wù)器實(shí)現(xiàn)了物理連接的解耦;
SAN存儲可以在應(yīng)用服務(wù)器之間實(shí)現(xiàn)存儲設(shè)備的共享;
SAN存儲與服務(wù)器之間的鏈路實(shí)現(xiàn)了高度冗余,在性能和高可用都得到質(zhì)變;
NAS存儲可以支持更靈活的以太網(wǎng)協(xié)議;
NAS存儲可以實(shí)現(xiàn)文件系統(tǒng)級別的數(shù)據(jù)共享;
NAS存儲可以實(shí)現(xiàn)超遠(yuǎn)距離的數(shù)據(jù)存儲服務(wù)。
為什么SAN存儲雖然是企業(yè)存儲主流,但也始終無法取代NAS?
或許我們可以舉出很多很多二者之間的區(qū)別,從連接協(xié)議、數(shù)據(jù)載體、靈活度等等各個方面都會有一些差異導(dǎo)致不同場景下的優(yōu)略。但是我認(rèn)為最根本原因還是在于性能問題。NAS存儲的性能瓶頸在于其傳輸協(xié)議和數(shù)據(jù)載體類型。20世紀(jì)前后,以太網(wǎng)的發(fā)展多數(shù)停留在千兆級別,與同時(shí)代SAN網(wǎng)絡(luò)的4GB、8GB FC相比,速度相差太懸殊了。文件系統(tǒng)雖然可以直接存放文件,但是其讀寫的控制機(jī)制相比較Block模式來講要復(fù)雜很多,性能開銷大打折扣。也許有人會說因?yàn)镾AN存儲大部分應(yīng)用于數(shù)據(jù)庫類的應(yīng)用,而數(shù)據(jù)庫類的應(yīng)用不適合文件系統(tǒng)。表面上這句話沒錯,但是誰說數(shù)據(jù)庫的容器(DB2)或者數(shù)據(jù)文件(Oracle)就不能是文件系統(tǒng)上的文件呢,而非得Block存儲卷呢?其根本原因還是在于底層的讀寫性能。
那么反過來,為什么NAS還能一直存在并與SAN存儲并存呢?
這個還是取決于它支持的協(xié)議和文件的載體,有一些數(shù)據(jù)存儲場景更適合于以太網(wǎng)協(xié)議,并且更適合文件系統(tǒng)作為載體。SAN網(wǎng)絡(luò)要想傳輸?shù)较鄬h(yuǎn)距離的區(qū)域,比如不同樓宇、不同園區(qū)、不同地區(qū),從成本上、技術(shù)上、靈活性上來看都會力不從心。Block存儲要想實(shí)現(xiàn)數(shù)據(jù)的共享讀寫,不是不可以,但是必須得依賴于應(yīng)用的共享控制機(jī)制,比如HA軟件和LVM,而NAS存儲天生支持NFS和CIFS共享協(xié)議。
SAN&NAS存儲架構(gòu)在自己的時(shí)代又經(jīng)歷了哪些進(jìn)化?
在屬于自己的時(shí)代里,SAN和NAS存儲架構(gòu)圍繞著擴(kuò)展性、高可用、性能以及TCO等因素各自伴隨著新的軟硬件技術(shù)誕生發(fā)展而衍生出新的發(fā)展趨勢。
1).存儲控制器的擴(kuò)展性發(fā)展趨勢。
最初的SAN存儲基本屬于雙控制架構(gòu),兩個控制器的工作模式由最初的AS模式發(fā)展為AA模式,為整個存儲系統(tǒng)提供數(shù)據(jù)的讀寫控制服務(wù),后續(xù)逐漸發(fā)展為網(wǎng)狀架構(gòu)多控的負(fù)載均衡集群模式。
2010年HP公司完成對3PAR公司的收購,標(biāo)志著HP存儲系統(tǒng)從原來的雙控四控EVA存儲架構(gòu)轉(zhuǎn)化為網(wǎng)狀架構(gòu)的8控、16控高端SAN存儲架構(gòu)。2011年,EMC公司將其Symmetrix VMAX產(chǎn)品定位為主推產(chǎn)品,意味著其SAN存儲產(chǎn)品由原來的雙控VNX產(chǎn)品系列轉(zhuǎn)化為網(wǎng)狀多控集群架構(gòu)。
這個變化導(dǎo)致了SAN存儲在吞吐量、性能、高可用、容量等方面都得到了質(zhì)的飛躍。
2).虛擬存儲卷的池化技術(shù)越來越精湛,映射單元粒度變小、數(shù)據(jù)分散度提高。
最初基于雙控模式的SAN存儲的虛擬存儲卷一般是基于物理磁盤組基礎(chǔ)之上做一次分配和映射形成虛擬卷,后續(xù)的SAN存儲虛擬卷逐漸發(fā)展為多層映射并且最小的物理存儲單元粒度越來越小。
以EMC的VMAX為例,其存儲卷Virtual Volume到Physical Disk之間除了有DiskGroup的概念,還有Physical Device、Virtual Device、Storage Pool、Thin Pool等多個對象,正是這些對象的多層映射使得提供存儲服務(wù)的虛擬存儲卷所對應(yīng)的實(shí)際物理存儲空間映射到了成百上千塊物理磁盤的小粒度存儲單元空間上。
這種技術(shù)的改變一方面逐漸消除熱點(diǎn)數(shù)據(jù)集中在局部物理存儲空間的可能性,提高了數(shù)據(jù)讀寫的整體性能。另外一方面,數(shù)據(jù)在物理存儲磁盤上的分散程度提高,可能面臨的物理磁盤故障對數(shù)據(jù)安全性影響變小,提高故障數(shù)據(jù)的恢復(fù)速度以及降低數(shù)據(jù)恢復(fù)過程對存儲系統(tǒng)的性能影響。
3).存儲管理軟件功能越來越完善,越來越強(qiáng)大。
隨著高端SAN存儲的不斷發(fā)展,尤其是2015年之后的發(fā)展階段,高端SAN存儲上逐漸增加了數(shù)據(jù)空間利用率管理、數(shù)據(jù)保護(hù)管理、數(shù)據(jù)性能管理等方面的各種軟件功能。
數(shù)據(jù)消重功能:其功能就是在存儲端將上層應(yīng)用存儲的重復(fù)數(shù)據(jù)保留一份,從而提高物理空間的利用率。其本質(zhì)上是以BLOCK為單位進(jìn)行數(shù)據(jù)對比,僅在物理存儲空間保存一份,而在虛擬存儲卷到物理空間的映射上增加指針的軟件技術(shù)。
數(shù)據(jù)壓縮功能:其功能就是在存儲端將讀寫訪問頻度較低的數(shù)據(jù),基于壓縮算法進(jìn)行數(shù)據(jù)壓縮,提高物理空間的利用率。具體壓縮算法有很多,壓縮類型也包括有損和無損兩種。但是無論是什么算法什么類型,其對CPU的消耗是必然的,如果剛剛壓縮的數(shù)據(jù)又被訪問到的概率越高,解壓的代價(jià)就越高。
克隆技術(shù)和快照技術(shù):存儲卷的克隆技術(shù)是指在存儲設(shè)備上,基于存儲卷的Block存儲單元而進(jìn)行完全復(fù)制形成的完全相同的存儲卷,用來做數(shù)據(jù)備份恢復(fù)。快照技術(shù)是指基于某個存儲卷的Block存儲單元而進(jìn)行指針映射而形成一個虛擬的存儲卷,同樣用來進(jìn)行數(shù)據(jù)備份恢復(fù)。需要注意的是克隆出來的卷雖然數(shù)據(jù)完全一樣,但是存儲卷的元數(shù)據(jù)信息是不一樣的,采用存儲卷直接替換方式進(jìn)行系統(tǒng)恢復(fù)的時(shí)候需要考慮應(yīng)用對存儲卷元數(shù)據(jù)的識別??煺占夹g(shù)是一種修改即拷貝的機(jī)制,使用時(shí)需要注意數(shù)據(jù)修改對存儲空間使用的影響。
瘦存儲卷技術(shù):瘦存儲卷技術(shù)也就是存儲設(shè)備是否支持使用Thin模式。分配卷時(shí)并不分配真實(shí)容量的物理空間,而是在存儲卷需要存儲數(shù)據(jù)的時(shí)候才會逐漸分配物理空間。同樣也是基于企業(yè)TCO的考慮。將應(yīng)用在一段時(shí)間內(nèi)可能需要的存儲規(guī)模劃定好,但是真實(shí)的物理存儲空間是逐年擴(kuò)容投入并且是按需投入。但是需要考慮使用溢出的風(fēng)險(xiǎn)。
數(shù)據(jù)分層技術(shù):通俗理解數(shù)據(jù)分層技術(shù)就是把正確性能要求的數(shù)據(jù)放在正確性能的存儲載體上。存儲磁盤有快有慢,成本與性能成正比,為了平衡TCO與性能要求的不可預(yù)見性,通過軟件算法自動將不同性能要求的數(shù)據(jù)放在不同讀寫速度的物理磁盤上。
4).隨著存儲虛擬化技術(shù)的發(fā)展,其逐漸成為企業(yè)容災(zāi)框架的關(guān)鍵技術(shù)。
SNIA(Storage Networking Industry Association)存儲網(wǎng)絡(luò)工業(yè)協(xié)會對存儲虛擬化是這樣定義的:通過將一個或多個目標(biāo)(Target)服務(wù)或功能與其它附加的功能集成,統(tǒng)一提供有用的全面功能服務(wù)。通俗講,虛擬存儲技術(shù)將底層存儲設(shè)備進(jìn)行抽象化統(tǒng)一管理,向服務(wù)器層屏蔽存儲設(shè)備硬件的特殊性,而只保留其統(tǒng)一的邏輯特性,從而實(shí)現(xiàn)了存儲系統(tǒng)集中、統(tǒng)一而又方便的管理。對比一個計(jì)算機(jī)系統(tǒng)來說,整個存儲系統(tǒng)中的虛擬存儲部分就像計(jì)算機(jī)系統(tǒng)中的操作系統(tǒng),對下層管理著各種特殊而具體的設(shè)備,而對上層則提供相對統(tǒng)一的運(yùn)行環(huán)境和資源使用方式。
圖2.3存儲虛擬化架構(gòu)圖
SAN Storage Virtual Gateway Layer
通過SAN網(wǎng)絡(luò)的ZONE隔離策略將SAN網(wǎng)絡(luò)在邏輯上隔離為前后端網(wǎng)絡(luò),前端包括服務(wù)器和存儲虛擬化網(wǎng)關(guān)設(shè)備,后端包括存儲虛擬化網(wǎng)關(guān)設(shè)備和SAN存儲設(shè)備;
存儲虛擬化網(wǎng)關(guān)層代替SAN存儲向服務(wù)器提供存儲卷服務(wù);
存儲虛擬化層提供給服務(wù)器的存儲卷是經(jīng)過了整合或者鏡像之后的虛擬化卷。
從SAN存儲的虛擬化技術(shù)發(fā)展歷史來看,其實(shí)最初的虛擬化技術(shù)主要的是實(shí)現(xiàn)存儲卷的集成功能,更多的是企業(yè)存儲立舊的目的。例如IBM的V系列存儲最初的存儲卷虛擬化功能就是要實(shí)現(xiàn)對IBM系列老舊存儲的集成。V系列存儲的虛擬存儲卷可以由多個物理存儲設(shè)備上的物理卷組成。但是隨著IBM SVC產(chǎn)品以及EMC VPlex等產(chǎn)品的出現(xiàn),存儲虛擬化技術(shù)主要用來做1:1鏡像存儲卷實(shí)現(xiàn)數(shù)據(jù)在不同區(qū)域的高可用保護(hù)或者是容災(zāi)保護(hù)。
另外一方面,存儲控制器的虛擬化發(fā)展模式更加促進(jìn)了容災(zāi)技術(shù)的逐步完善。近些年來隨著計(jì)算虛擬化的不斷發(fā)展,操作系統(tǒng)虛擬化及容器的概念不僅僅改變了服務(wù)器的使用習(xí)慣,而且部分引入到了存儲操作系統(tǒng)的管理當(dāng)中,存儲控制器由物理節(jié)點(diǎn)為虛擬節(jié)點(diǎn),可以對控制器的網(wǎng)絡(luò)、存儲卷、緩存、CPU等資源動態(tài)重組并實(shí)現(xiàn)在物理硬件上的平滑遷移,最終提高容災(zāi)系統(tǒng)的RPO。例如Netapp的FAS產(chǎn)品系列的Data Ontap。
5).存儲架構(gòu)逐漸走向整合模式。
存儲架構(gòu)逐漸走向統(tǒng)一整合的模式主要體現(xiàn)在3個方面:
NAS存儲功能和SAN存儲功能逐漸走向整合。同時(shí)兼?zhèn)銷AS功能和SAN存儲功能的產(chǎn)品逐漸增多,Netapp由最開始的NAS專注者轉(zhuǎn)變?yōu)榻y(tǒng)一存儲提供者,從FAS8000系列開始,其產(chǎn)品兼?zhèn)銷AS、SAN以及存儲虛擬化容災(zāi)功能。EMC VMAX 10K還僅僅是一個獨(dú)立的SAN存儲,從VMAX 20K開始已經(jīng)轉(zhuǎn)變?yōu)榧婢逳AS功能的統(tǒng)一化存儲產(chǎn)品。
高性能小容量磁盤介質(zhì)與低性能大容量磁盤介質(zhì)走向整合。SAN存儲發(fā)展到2015年前后,細(xì)數(shù)各家存儲設(shè)備廠商的高端存儲設(shè)備,基本上分層管理技術(shù)(FAST)已經(jīng)成為其必備功能。分層技術(shù)已經(jīng)發(fā)展到可以針對分層的時(shí)間窗口以及分層的性能指標(biāo)等多個維度進(jìn)行自定義。企業(yè)也越來越多得開始使用這種技術(shù)來平衡企業(yè)存儲投入TCO。
存儲運(yùn)維管理走向統(tǒng)一化。在存儲虛擬化技術(shù)的基礎(chǔ)之上,越來越多高端存儲產(chǎn)品具備對不同類型甚至不同品牌的存儲產(chǎn)品進(jìn)行管理上的整合。以EMC的VPlex為例,其不僅僅可以兼容EMC自己的存儲產(chǎn)品系列,而且可以兼容很多其他品牌的存儲產(chǎn)品,然后在其之上形成一層虛擬化存儲抽象層,從而實(shí)現(xiàn)存儲管理工作的統(tǒng)一化和便捷化。