對象存儲和新型分布式文件系統(tǒng) - 填補Hadoop存儲的空白

對象存儲擅長存儲大量非結(jié)構(gòu)化數(shù)據(jù),例如視頻和圖像。諸如像媒體娛樂、監(jiān)視、醫(yī)療保健以及石油和天然氣領(lǐng)域的公司都是對象存儲的大用戶,這得要歸功于其存儲海量數(shù)據(jù)的能力。

背景

Hadoop分布式文件系統(tǒng)(HDFS)從Hadoop出現(xiàn)到現(xiàn)在已有了10多個年頭。HDFS的出現(xiàn)和成熟為企業(yè)提供了廉價的海量數(shù)據(jù)存儲方案,大數(shù)據(jù)存儲不再是“王謝堂前燕”,而真正地“飛入”了各個公司。但是10多年的時間,IT軟硬件架構(gòu)、企業(yè)部署已經(jīng)發(fā)生了翻天覆地的變化,在這些新的變革下,HDFS露出了一定的頹勢。但是云上對象存儲是唯一的選擇嗎?面向on-premise,云環(huán)境以及混合云環(huán)境,在這新舊存儲架構(gòu)交替之際,數(shù)據(jù)存儲會如何發(fā)展呢,如何填補Hadoop存儲留下的空白?

本文為翻譯文章,翻譯自datanami的文章Object and Scale-Out File Systems Fill Hadoop Storage Void[1].

前言

快速增長的數(shù)據(jù)量以及變化的數(shù)據(jù)處理方式對于現(xiàn)有的、已經(jīng)建立起來的大數(shù)據(jù)存儲架構(gòu)產(chǎn)生了一定的影響。在原先的方案中,一個組織想要存儲PB級的弱結(jié)構(gòu)化數(shù)據(jù),他們往往首先會想到的是on-premise數(shù)據(jù)湖架構(gòu)。但是現(xiàn)在,他們會更多地去考慮多云和混合云架構(gòu)下的可擴展文件系統(tǒng)或是對象存儲,這會帶來更多的靈活性。

自從Hadoop的光環(huán)漸漸褪去后,許多企業(yè)一直尋找其他方案來存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)占據(jù)了泛濫的大數(shù)據(jù)中的絕大部分。這些企業(yè)希望將這些數(shù)據(jù)應(yīng)用到各個場景中,其中最重要的是訓(xùn)練機器學(xué)習(xí)模型以使決策自動化。

盡管宣告Hadoop的死亡還為時過早[2],但是顯然HDFS不再存儲企業(yè)的絕大部分?jǐn)?shù)據(jù)。Hadoop,就像所有之前出現(xiàn)的快速增長技術(shù)那樣,隨著人們對于其功能的重新評估,對它的期望已經(jīng)從頂峰逐漸下降。Cloudera,現(xiàn)如今唯一的Hadoop發(fā)行者,已經(jīng)脫離Hadoop一段時間了,現(xiàn)在正著眼于幫助客戶以混合云的方式存儲和處理數(shù)據(jù)方式。

鑒于大數(shù)據(jù)領(lǐng)域現(xiàn)階段的動蕩,顯然,現(xiàn)今的趨勢正在尋找一種替代的存儲方式。在這之中,對象存儲正在逐步蠶食Hadoop所占的領(lǐng)地。

對象存儲

基于云的對象存儲系統(tǒng)是當(dāng)今的真正贏家,尤其是AWS[3]的S3,它已成為當(dāng)今對象系統(tǒng)事實上的標(biāo)準(zhǔn)接口。每個銷售對象存儲的軟件公司和大多數(shù)公有云供應(yīng)商都為其對象存儲提供了與S3兼容的API ,當(dāng)然在這其中Microsoft Azure[4]及ADLS是個例外。

盡管公有云迅速增長,但企業(yè)仍然不愿將所有數(shù)據(jù)(雞蛋)存儲在云(一個籃子)上。這確實是一個難題,因為S3本身并沒有on premise部署。

這樣的需求催生了新興的,基于混合云架構(gòu)的第三方對象存儲的增長,包括Red Hat[5]的開源方案,例如來自SwiftStack[6]的Swift和OpenStack[7]的Ceph,以及Minio[8]對象存儲,還有一些閉源方案,如Scality[9]的Ring,Cloudian[10]的HyperStore,Dell EMC[11]的Isilon和Nutanix[12]的Objects。

對象存儲,理論上沒有存儲上限,它實質(zhì)上是大規(guī)模的鍵值存儲,能夠在單個全局命名空間中存儲PB或EB級的數(shù)據(jù),并允許使用簡單的鍵來讀取數(shù)據(jù)。同時像HDFS一樣,對象存儲系統(tǒng)可以在X86節(jié)點的群集上運行,并有容錯機制,可以減少丟失數(shù)據(jù)的機會。

對象存儲擅長存儲大量非結(jié)構(gòu)化數(shù)據(jù),例如視頻和圖像。諸如像媒體娛樂、監(jiān)視、醫(yī)療保健以及石油和天然氣領(lǐng)域的公司都是對象存儲的大用戶,這得要歸功于其存儲海量數(shù)據(jù)的能力。

盡管可伸縮性和彈性是對象存儲的主要優(yōu)點,但I/O性能和數(shù)據(jù)局部性卻是其短板。對于那些超大的群集,往往可能需要等待幾秒鐘才能返回所需的數(shù)據(jù)。因此,對象存儲通常用于備份和存檔,而不是用于熱數(shù)據(jù)存取。

新型分布式文件系統(tǒng)

除了對象存儲,現(xiàn)如今也出現(xiàn)了新一代的分布式文件系統(tǒng),以及對Lustre等現(xiàn)有文件系統(tǒng)的修改。這些更新的分布式文件系統(tǒng)中的許多都還提供了S3兼容的API,并且還提供了對象存儲的功能,但是究其內(nèi)部,它們看起來更像傳統(tǒng)文件系統(tǒng)。

這些新型的分布式文件系統(tǒng)包括Qumulo[13]的分布式文件系統(tǒng),Elastfile[14]的Cloud File System(ECFS),WekaIO[15]的Matrix和Hedvig[16]的Distributed Storage Platform,等等。這些系統(tǒng)所針對的場景往往是那些需要更快訪問的場景。

借助更先進的數(shù)據(jù)緩存和數(shù)據(jù)分層功能,這些分布式文件系統(tǒng)可以提供快速的文件I/O能力,為現(xiàn)代數(shù)據(jù)應(yīng)用程序、新興的機器學(xué)習(xí)和AI場景所用。同時,它們還能與Docker以及Kubernetes這樣的容器編排框架很好地配合使用,當(dāng)然也很好地適配了混合云的部署架構(gòu)。

總結(jié)

軟件定義存儲(software-defined storage)領(lǐng)域現(xiàn)在正是高速增長中。 Gartner[17]在其2018年的分布式文件系統(tǒng)和對象存儲魔力象限中預(yù)測,到2022年,將有80%的企業(yè)數(shù)據(jù)存儲在此類可擴展的存儲系統(tǒng)中。而2018年,則只有40%的企業(yè)數(shù)據(jù)存儲在分布式文件系統(tǒng)和對象存儲中。

顯然,我們正處于存儲快速變革時期。在許多情況下,對象存儲和分布式文件系統(tǒng)之間的邊界變得越來越模糊。許多供應(yīng)商完全避開了這這些所謂的稱呼,并稱其為“data fabric”。

無論如何,他們都希望提供類似的功能,給與客戶自由選擇的權(quán)力,將PB級的數(shù)據(jù)存儲在他們所選擇的地方(on-premise,云或混合的形態(tài)),并通過各種接口提供服務(wù),包括S3和Swift API,以及低級的塊存儲,和更為高級的標(biāo)準(zhǔn)NFS和SMB接口,來訪問該數(shù)據(jù)。

在許多大數(shù)據(jù)的用例中,現(xiàn)如今HDFS似乎是這座“圍城”里唯一的選擇,而企業(yè)現(xiàn)在面臨著大量的大數(shù)據(jù)存儲選擇。在這個領(lǐng)域中,盡管當(dāng)前有領(lǐng)導(dǎo)者,但沒有明確的領(lǐng)先者來為后來者明確追趕的方向(除非你將AWS的S3協(xié)議視為新的標(biāo)準(zhǔn)協(xié)議)。

就像數(shù)據(jù)孤島的泛濫一樣,我們看到了數(shù)據(jù)存儲標(biāo)準(zhǔn)的泛濫。這在某種程度上增加了企業(yè)的風(fēng)險,希望避免投資無法持久的技術(shù),這迫使他們做足功課以找到適合他們的軟件定義存儲系統(tǒng)。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論