【導(dǎo)讀】本文回顧了30年間存儲(chǔ)架構(gòu)技術(shù)的發(fā)展演變,從原始階段、SAN&NAS共存,到SDS興起、百花齊放,直至沉淀并分類聚焦時(shí)代來(lái)臨,希望能為讀者帶來(lái)對(duì)趨勢(shì)的清晰認(rèn)識(shí)和深入思考。將分為上下兩篇推送,歡迎閱讀。
【作者】趙海
前言
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)已經(jīng)成為企業(yè)的戰(zhàn)略資源,如何存儲(chǔ)數(shù)據(jù)以及如何利用數(shù)據(jù)也已成為企業(yè)科技部門研究的熱點(diǎn)話題,尤其是伴隨著近些年的互聯(lián)網(wǎng)革命,數(shù)據(jù)存儲(chǔ)世界也發(fā)生了翻天覆地的變化,出現(xiàn)了很多新的名詞、新的產(chǎn)品、新的趨勢(shì)等等。面對(duì)這些眼花繚亂的事務(wù),如何抽絲剝繭抓住事務(wù)的本質(zhì)其實(shí)是從事技術(shù)研究工作的首要任務(wù)。而對(duì)于分布式存儲(chǔ)技術(shù)這個(gè)領(lǐng)域,我認(rèn)為需要從縱向的存儲(chǔ)技術(shù)發(fā)展脈絡(luò)和橫向的主流技術(shù)對(duì)比兩個(gè)方面來(lái)深刻認(rèn)識(shí)。閱讀上篇,請(qǐng)點(diǎn)擊:存儲(chǔ)架構(gòu)技術(shù)發(fā)展演變30年(上):從原始時(shí)期到SAN&NAS共存階段
一、軟件定義存儲(chǔ)的興起和存儲(chǔ)架構(gòu)的百花齊放年代
伴隨著2010年之后的互聯(lián)網(wǎng)迅速發(fā)展,企業(yè)的應(yīng)用發(fā)生了很大的變化。
應(yīng)用訪問(wèn)模式上,伴隨著Web1.0、2.0、3.0的飛速發(fā)展,越來(lái)越多的業(yè)務(wù)模式轉(zhuǎn)變?yōu)锽S模式,業(yè)務(wù)訪問(wèn)的并發(fā)量上發(fā)生了有史以來(lái)最大量級(jí)的升級(jí)。業(yè)務(wù)特性上,分析類業(yè)務(wù)劇增,依靠數(shù)據(jù)分析挖掘商機(jī)的時(shí)代到來(lái)。大數(shù)據(jù)、BI等新型業(yè)務(wù)系統(tǒng)紛紛在企業(yè)信息系統(tǒng)群中上線,數(shù)據(jù)本身的再生產(chǎn)價(jià)值能力受到空前的重視。業(yè)務(wù)跨度上,伴隨著云計(jì)算的發(fā)展,越來(lái)越多的業(yè)務(wù)成為互聯(lián)網(wǎng)業(yè)務(wù),不僅僅需要從云端獲取必須的數(shù)據(jù),而且需要從云端獲取海量數(shù)據(jù)生產(chǎn)加工之后的價(jià)值數(shù)據(jù)。企業(yè)數(shù)據(jù)上,越來(lái)越多的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)形態(tài)涌入企業(yè)應(yīng)用系統(tǒng);數(shù)據(jù)量級(jí)呈爆發(fā)式的增長(zhǎng);數(shù)據(jù)生命周期管理由原來(lái)的在線離線為主的模式轉(zhuǎn)變?yōu)槎嗌芷诘哪J?;?shù)據(jù)分析成為企業(yè)必備的核心后臺(tái)。
在這些變化的驅(qū)動(dòng)下,傳統(tǒng)SAN存儲(chǔ)架構(gòu)已無(wú)法滿足某些企業(yè)數(shù)據(jù)存儲(chǔ)的靈活性、擴(kuò)展性、并發(fā)性等方面的需求,于是一些互聯(lián)網(wǎng)企業(yè)率先開(kāi)啟軟件定義的應(yīng)用之路。從2014到2019的五年時(shí)間內(nèi),軟件定義存儲(chǔ)的市場(chǎng)將從14億美元增長(zhǎng)到62億美元以上,年復(fù)合增長(zhǎng)率高達(dá)35%。而2017年也被譽(yù)為是軟件定義技術(shù)的元年。Apache Cassandra、CouchDB、MongoDB、Redis等一系列NoSQL數(shù)據(jù)庫(kù)軟件解決方案逐步走進(jìn)互聯(lián)網(wǎng)企業(yè)并且成熟,Ceph、Swift、GlusterFS等對(duì)象及文件系統(tǒng)類軟件存儲(chǔ)解決方案也逐步走進(jìn)企業(yè)的IT試驗(yàn)田。
說(shuō)了這么多,究竟什么是軟件定義存儲(chǔ)(SDS,Software Defined Storage)?
軟件定義簡(jiǎn)單來(lái)說(shuō)就是指資源由軟件自動(dòng)控制,通過(guò)抽象、池化和自動(dòng)化等一系列處理后,將標(biāo)準(zhǔn)服務(wù)器內(nèi)置存儲(chǔ)、直連存儲(chǔ),外置存儲(chǔ),或者云存儲(chǔ)等等的存儲(chǔ)資源整合起來(lái),實(shí)現(xiàn)應(yīng)用感知或者基于策略驅(qū)動(dòng)的部署、變更和管理,最終達(dá)到存儲(chǔ)即服務(wù)的目標(biāo)。
圖1.1 SDS存儲(chǔ)框架圖
SDS(Software Defined Storage)
從圖中的框架來(lái)看,首先需要明確的是SDS并不是某一款具體的存儲(chǔ)產(chǎn)品,而是一個(gè)技術(shù)框架,一種技術(shù)理念。從下往上,共有四個(gè)層次:存儲(chǔ)設(shè)備層是最底層的數(shù)據(jù)存儲(chǔ)物理載體,在這種框架下,對(duì)物理存儲(chǔ)載體的要求空前放寬,任何性能、任何形態(tài)、任何容量、任何連接都可以接受。只要他們具備一個(gè)條件即可,那就是可以被上層操作系統(tǒng)識(shí)別為可用存儲(chǔ)介質(zhì),可以定義為上層操作系統(tǒng)的可用設(shè)備。操作系統(tǒng)層承載著兩方面的作用,一方面需要識(shí)別到底層可用的存儲(chǔ)設(shè)備,另外一方面要提供軟件運(yùn)行的環(huán)境。SDS APS也就是存儲(chǔ)軟件層,無(wú)論是什么樣的存儲(chǔ)軟件,它只是作為操作系統(tǒng)環(huán)境運(yùn)行的一個(gè)軟件,其特殊之處在于它可以將系統(tǒng)識(shí)別到的存儲(chǔ)設(shè)備進(jìn)行整合并以應(yīng)用可以操作的接口提供給應(yīng)用。最上層的Data RW API,也就是數(shù)據(jù)的讀寫(xiě)接口,它可以按照應(yīng)用可以讀寫(xiě)的數(shù)據(jù)庫(kù)語(yǔ)言接口方式、數(shù)據(jù)文件方式或者是普通的文件系統(tǒng)、對(duì)象接口、Block存儲(chǔ)接口等方式提供給應(yīng)用程序所用。
為什么軟件定義存儲(chǔ)會(huì)在2014年之后逐漸興盛?
首先,任何事務(wù)都不是孤立產(chǎn)生的,SDS同樣是這樣的。當(dāng)現(xiàn)有環(huán)境下的事物無(wú)法滿足特定需求時(shí),人類必然會(huì)探求新的解決方案。當(dāng)傳統(tǒng)SAN存儲(chǔ)無(wú)法解決互聯(lián)網(wǎng)帶來(lái)的特殊數(shù)據(jù)形態(tài)存儲(chǔ)需求,無(wú)法解決數(shù)據(jù)量暴漲帶來(lái)的存儲(chǔ)TCO困惑,無(wú)法解決突如其來(lái)的并發(fā)量帶來(lái)的訪問(wèn)性能瓶頸的時(shí)候,一些互聯(lián)網(wǎng)企業(yè)開(kāi)始將一些塵封在實(shí)驗(yàn)室或者大學(xué)研究室當(dāng)中的思路探索性的應(yīng)用到了自己的新環(huán)境。例如,谷歌在2003、2004、2006年僅以學(xué)術(shù)共享形式發(fā)表的Google FS、MapReduce、BigTable三篇論文,十年之后卻成為互聯(lián)網(wǎng)企業(yè)實(shí)際應(yīng)用的先驅(qū)模板。而且隨著企業(yè)業(yè)務(wù)模式的不斷發(fā)展,這些源代碼經(jīng)歷了多次有針對(duì)性的優(yōu)化和改造,解決了很多新的場(chǎng)景問(wèn)題。
在SDS興起的時(shí)代,存儲(chǔ)架構(gòu)技術(shù)有了哪些新的變化和發(fā)展?
1.新型數(shù)據(jù)庫(kù)類(NOSQL)的數(shù)據(jù)存儲(chǔ)解決方案不斷涌現(xiàn)
互聯(lián)網(wǎng)業(yè)務(wù)高度并發(fā)的場(chǎng)景下,Redis、Memcache在逐漸成為主流的鍵值型緩存解決方案;面對(duì)互聯(lián)網(wǎng)的海量HTML網(wǎng)頁(yè)型的數(shù)據(jù)場(chǎng)景,Hbase等系列列式數(shù)據(jù)庫(kù)成為主流解決方案;面對(duì)實(shí)體關(guān)系類的社交數(shù)據(jù)場(chǎng)景,Nego4j系列圖形數(shù)據(jù)庫(kù)逐漸走進(jìn)一些以社交業(yè)務(wù)為主的互聯(lián)網(wǎng)企業(yè);MogoDB系列文檔數(shù)據(jù)庫(kù)逐漸替代以NAS及內(nèi)容管理軟件組合起來(lái)的影像類解決方案。
總而言之,新數(shù)據(jù)類型的出現(xiàn)激發(fā)了很多基于新型數(shù)據(jù)類型以及新的數(shù)據(jù)存取及訪問(wèn)特點(diǎn)而產(chǎn)生的新數(shù)據(jù)存儲(chǔ)需求,而這些新的數(shù)據(jù)存儲(chǔ)需求又促生了這些新的NOSQL數(shù)據(jù)庫(kù)解決方案。
2.超融合架構(gòu)技術(shù)在制造行業(yè)應(yīng)用的不斷擴(kuò)展
以提供存儲(chǔ)產(chǎn)品的廠家不可能坐視自己的市場(chǎng)份額逐漸減少,于是在百花齊放的年代他們開(kāi)始認(rèn)真審視自己的產(chǎn)品和時(shí)代的特點(diǎn),針對(duì)于IT自控能力不足,但是又希望能夠適應(yīng)時(shí)代特點(diǎn),分享新技術(shù)帶來(lái)收益的一部分企業(yè)群體,提出了超融合架構(gòu)解決方案。以起初的EMC VxRail、Nutanix、Cisco HyperFlex等為代表發(fā)展到華為、華三、聯(lián)想、深信服、SmartX等百花齊放的階段,場(chǎng)面可謂壯觀。
眾多的超融合解決方案在存儲(chǔ)層面,基于vSan、HDFS、HXDP、Ceph等軟件定義存儲(chǔ)原型進(jìn)行優(yōu)化改造并封裝成通用商業(yè)產(chǎn)品融入超融合架構(gòu)。
3.對(duì)象存儲(chǔ)的應(yīng)用由媒體視頻行業(yè)擴(kuò)展到制造、交通、政府以及金融等各個(gè)行業(yè)
雖然互聯(lián)網(wǎng)應(yīng)用對(duì)性能和容量的要求極高,但是對(duì)其它特性卻沒(méi)什么特別的要求。甚至可以說(shuō)它對(duì)其它特性基本上沒(méi)有太多要求。由于其存儲(chǔ)的主要是圖片,而且對(duì)圖片的存儲(chǔ)是一次存儲(chǔ),多次訪問(wèn),沒(méi)有修改。在這種需求的驅(qū)動(dòng)下,對(duì)象存儲(chǔ)解決方案應(yīng)用而生。2004-2009年間,出現(xiàn)了真正的對(duì)象存儲(chǔ)先鋒。主要的廠商為Caringo,Cleversafe,Amplidata,Compuverde,DDN(Bucket File System)等。Ceph是2014年通過(guò)Inktank以1.75億美元收購(gòu),而Gluster則早在2011年就被紅帽以1.36億美元收購(gòu)。對(duì)象存儲(chǔ)應(yīng)用領(lǐng)域也從最初的互聯(lián)網(wǎng)行業(yè)的圖片、視頻存儲(chǔ)覆蓋到了各行各業(yè)的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)領(lǐng)域。
4.SAN存儲(chǔ)從通用企業(yè)級(jí)存儲(chǔ)解決方案逐漸走向高性能結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)解決方案場(chǎng)景
在這個(gè)特殊的時(shí)代,隨著數(shù)據(jù)存儲(chǔ)的各種新需求出現(xiàn),存儲(chǔ)架構(gòu)也呈現(xiàn)百花齊放的狀態(tài)。獨(dú)霸江湖數(shù)十年的SAN存儲(chǔ)終于有了更聚焦的定位。盡管很多數(shù)據(jù)存儲(chǔ)場(chǎng)景找到了更適合的軟件定義存儲(chǔ)產(chǎn)品或是對(duì)象存儲(chǔ)產(chǎn)品,但是以結(jié)構(gòu)化數(shù)據(jù)為存儲(chǔ)對(duì)象的傳統(tǒng)應(yīng)用場(chǎng)景似乎還是非SAN存儲(chǔ)莫屬。由于結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)與Block存儲(chǔ)的天然契合性、結(jié)構(gòu)化數(shù)據(jù)讀取性能的要求以及結(jié)構(gòu)化數(shù)據(jù)對(duì)并發(fā)控制的嚴(yán)格要求導(dǎo)致SAN存儲(chǔ)依然獨(dú)樹(shù)一幟。于是越來(lái)越多的企業(yè)將SAN存儲(chǔ)的定位更明確化清晰化。
二、存儲(chǔ)架構(gòu)技術(shù)沉淀并分類聚焦的時(shí)代
近些年來(lái),伴隨著一些歷史事件的發(fā)生,存儲(chǔ)架構(gòu)技術(shù)的發(fā)展伴隨著百花爭(zhēng)鳴的喧囂逐漸走向了安靜。該淘汰的淘汰,該沉淀的沉淀,最終呈現(xiàn)出清晰的發(fā)展脈絡(luò)。首先我們來(lái)看一些有意義的歷史事件:
2010年:EMC收購(gòu)Isilon;
2012年:VMware提出SDDC(軟件定義數(shù)據(jù)中心)和SDS(軟件定義存儲(chǔ))的概念,之后推出SDS產(chǎn)品–Virtual SAN的預(yù)覽版;
2013年:Avago收購(gòu)LSI;
2014年:閃迪收購(gòu)Fusion-io;
2015年:XSKY成立;
2016年:IBM收購(gòu)對(duì)象存儲(chǔ);HCI(超融合)概念提出者Nutanix上市;
2017年:HPE收購(gòu)Nimble Storage;
2018年:微軟收購(gòu)混合云數(shù)據(jù)存儲(chǔ)公司Avere Systems;
2019年:AWS收購(gòu)E8 Storage;谷歌收購(gòu)存儲(chǔ)企業(yè)Elastifile;IBM收購(gòu)RedHat Ceph和Gluster。
存儲(chǔ)世界發(fā)生的這些大事件推動(dòng)著企業(yè)的存儲(chǔ)架構(gòu)技術(shù)變革也呈現(xiàn)出一系列清晰的脈絡(luò):
1.分布式成為企業(yè)存儲(chǔ)架構(gòu)追求的主要目標(biāo)之一
根據(jù)Gartner對(duì)于2020年全球外置存儲(chǔ)市場(chǎng)統(tǒng)計(jì)來(lái)看,分布式存儲(chǔ)發(fā)貨容量13ZB、銷售額33億$。2018年到2023年期間,中國(guó)分布式存儲(chǔ)市場(chǎng)年均復(fù)合增長(zhǎng)率將達(dá)到22.4%。不難看出,在數(shù)據(jù)量不斷暴漲和國(guó)產(chǎn)化趨勢(shì)的雙重驅(qū)動(dòng)下,分布式存儲(chǔ)逐漸成為企業(yè)追求的目標(biāo)之一。
圖2.1 DSS存儲(chǔ)框架圖
從架構(gòu)設(shè)計(jì)角度看,大規(guī)模數(shù)據(jù)量的場(chǎng)景下是分布式架構(gòu)最擅長(zhǎng)的地方。傳統(tǒng)存儲(chǔ)陣列采用Scale-up架構(gòu),評(píng)價(jià)其架構(gòu)設(shè)計(jì)好壞的標(biāo)準(zhǔn)是在有限的處理器、內(nèi)存資源下提供更高的可靠性和性能,管理更大的存儲(chǔ)容量。分布式存儲(chǔ)采用Scale-out架構(gòu),以處理器、內(nèi)存、硬盤構(gòu)成一個(gè)個(gè)獨(dú)立的擴(kuò)展單元,客戶端經(jīng)由路由節(jié)點(diǎn)直接從各個(gè)獨(dú)立擴(kuò)展單元獲取所需要的數(shù)據(jù)片段,其架構(gòu)設(shè)計(jì)追求的目標(biāo)是更大的擴(kuò)展能力。從企業(yè)TCO角度看,雖然存儲(chǔ)廠商暫時(shí)陷入比拼硬件成本的惡性競(jìng)爭(zhēng)狀態(tài),專業(yè)的軟件價(jià)值暫未得到應(yīng)有認(rèn)可。但是越是海量數(shù)據(jù)的場(chǎng)景,分布式存儲(chǔ)的成本優(yōu)勢(shì)越突出。
2.SAN存儲(chǔ)領(lǐng)域陸續(xù)將全閃存儲(chǔ)作為主流SAN存儲(chǔ)產(chǎn)品推出
全閃存儲(chǔ)指全部由固態(tài)存儲(chǔ)介質(zhì)構(gòu)成的獨(dú)立存儲(chǔ)陣列或設(shè)備。全閃存儲(chǔ)的高速發(fā)展,既是新應(yīng)用對(duì)性能需求驅(qū)動(dòng)的結(jié)果,也是閃存技術(shù)不斷創(chuàng)新的成果。近些年來(lái),各大存儲(chǔ)廠商均推出了全閃存儲(chǔ)產(chǎn)品,相較傳統(tǒng)機(jī)械存儲(chǔ),在存儲(chǔ)性能委員會(huì)(SPC)的SPC-1基準(zhǔn)下,業(yè)務(wù)性能提升了5倍;在數(shù)據(jù)庫(kù)場(chǎng)景下,業(yè)務(wù)性能提升了10倍;在虛擬桌面場(chǎng)景下,啟動(dòng)響應(yīng)時(shí)間縮短80%。
技術(shù)上與傳統(tǒng)的機(jī)械硬盤相比較,時(shí)延從2ms降低到0.02ms,5年返還率從13.4%降低到0.8%,功率從10W降低到3W。這三大指標(biāo)決定著全閃存儲(chǔ)從性能、穩(wěn)定性、節(jié)能三方面都得到了質(zhì)的提升。TCO投入上與傳統(tǒng)的SAN存儲(chǔ)相比,二者之間的差距逐漸縮小。綜合評(píng)估性價(jià)比的話,從實(shí)際印證的結(jié)果來(lái)看,企業(yè)越來(lái)越偏向于全閃存儲(chǔ),尤其是在關(guān)系數(shù)據(jù)庫(kù)的關(guān)鍵應(yīng)用上。
3.存儲(chǔ)平臺(tái)的數(shù)據(jù)分析支持能力逐漸被提到相當(dāng)高度
存儲(chǔ)平臺(tái)的數(shù)據(jù)分析和挖掘能力來(lái)源于電商業(yè)務(wù)的驅(qū)動(dòng),最初的電商行業(yè)主要依靠海量用戶數(shù)據(jù)的分析來(lái)挖掘其潛在的商業(yè)價(jià)值。近些年來(lái)數(shù)據(jù)的價(jià)值分析已經(jīng)嵌入到各行各業(yè),金融行業(yè)用這些海量的數(shù)據(jù)來(lái)分析反洗錢、信貸管理、監(jiān)管報(bào)送等業(yè)務(wù),保險(xiǎn)行業(yè)用其客戶畫(huà)像數(shù)據(jù)和海量的關(guān)聯(lián)數(shù)據(jù)分析來(lái)計(jì)算客戶的保險(xiǎn)系數(shù),制造行業(yè)用其海量的過(guò)程數(shù)據(jù)來(lái)提高產(chǎn)品的良率,安保行業(yè)用海量的視頻數(shù)據(jù)來(lái)智能比對(duì)、精準(zhǔn)追蹤、打擊犯罪,交通行業(yè)用海量的交通數(shù)據(jù)做智能交通調(diào)度等。
總而言之,數(shù)據(jù)存儲(chǔ)平臺(tái)不再是一個(gè)孤立的載體,而是向開(kāi)放的、智能的、可再利用的中間平臺(tái)過(guò)度,很多企業(yè)開(kāi)始打造整合多種功能于一體的的數(shù)據(jù)中臺(tái)和后臺(tái)。
4.云存儲(chǔ)架構(gòu)逐漸融入企業(yè)IT架構(gòu)當(dāng)中
面對(duì)數(shù)據(jù)增長(zhǎng)帶來(lái)的挑戰(zhàn),很多企業(yè)現(xiàn)有的FTP、NAS、Windows共享等存儲(chǔ)共享方式已逐漸滿足不了企業(yè)數(shù)據(jù)存儲(chǔ)和管理的業(yè)務(wù)需求。據(jù)IDC數(shù)據(jù)顯示,到2025年,全球創(chuàng)建、獲取和復(fù)制的數(shù)據(jù)量將增至175ZB,其中,企業(yè)存儲(chǔ)的數(shù)據(jù)量將會(huì)占據(jù)全球總數(shù)據(jù)量80%以上。這一數(shù)據(jù)表明企業(yè)正迅速成為生產(chǎn)數(shù)據(jù)和管理數(shù)據(jù)的主要載體,加上目前我國(guó)正處于云計(jì)算的高速發(fā)展時(shí)期,企業(yè)上云成為必然趨勢(shì)。越來(lái)越多的企業(yè)選擇將自己的日常辦公數(shù)據(jù)、備份數(shù)據(jù)、歸檔數(shù)據(jù)、靜態(tài)歷史數(shù)據(jù)等活動(dòng)性不強(qiáng)的海量數(shù)據(jù)移入云存儲(chǔ)資源池甚至直接推向云端。
從企業(yè)運(yùn)維管理的角度來(lái)講,伴隨著云計(jì)算的不斷推廣發(fā)展,企業(yè)IT運(yùn)維管理必然走向自動(dòng)化,那么存儲(chǔ)作為云端必不可少的重要資源,它的使用和管理也必然融入企業(yè)云。