5G的正式商用,使得AR/VR、自動駕駛、物聯(lián)網(wǎng)等技術(shù)成為現(xiàn)實,這些技術(shù)的應(yīng)用也標(biāo)志著流數(shù)據(jù)時代到來。而當(dāng)前的數(shù)據(jù)處理、存儲方式并不適用于流數(shù)據(jù)時代,主要有三缺陷。
什么是流數(shù)據(jù)
所謂的流數(shù)據(jù),并不是數(shù)據(jù)流,它指的是一組順序、大量、快速、連續(xù)到達(dá)的數(shù)據(jù)序列,其可被視為一個隨時間延續(xù)而無限增長的動態(tài)數(shù)據(jù)集合,在并發(fā)上,其單位并非以千為單位,而是百萬。同時,這樣的數(shù)據(jù)在讀寫上均對延時具有要求。
形象理解的話,自動駕駛場景產(chǎn)生的數(shù)據(jù),這就是典型的流數(shù)據(jù)。自動駕駛的數(shù)據(jù)每分每秒能在產(chǎn)生,而交通路況又瞬息萬變,其需要傳輸?shù)竭吘壏?wù)器或者云上核心數(shù)據(jù)中心的數(shù)據(jù)能被即傳即處理即返回,以對路況做出實時相應(yīng),不可能說數(shù)據(jù)傳過去十幾秒、幾秒才得到反應(yīng)指令,這勢必造成交通事故。
此外,產(chǎn)生流數(shù)據(jù)的典型場景還包括AR/VR、股票交易等。
流數(shù)據(jù)處理存儲平臺特征
自然,流數(shù)據(jù)來了,也就需要相應(yīng)的處理、存儲平臺。根據(jù)流數(shù)據(jù)的特點可以看出,其所需要的處理、存儲平臺需要滿足具備以下幾方面能力:一是百萬級別并發(fā)下小于10ms的讀寫延時;二是同時具有存儲和處理能力,在此基礎(chǔ)上既能對流數(shù)據(jù)實現(xiàn)讀寫,同時歷史批量數(shù)據(jù)也能得到高吞吐量的讀;三是確保每個數(shù)據(jù)都能被處理且只處理一次,并遵循嚴(yán)格有序的訪問模式。
傳統(tǒng)數(shù)據(jù)存儲有缺陷
但當(dāng)下企業(yè)所應(yīng)用的數(shù)據(jù)處理、存儲平臺卻存在著多種缺陷,根本無法適應(yīng)流數(shù)據(jù)的到來。通常而言,目前所使用的大數(shù)據(jù)框架主要為Hadoop、Spark或者是Kafka,數(shù)據(jù)進入這些框架,將會被分為兩條線處理,一個走Spark Streaming去處理實時數(shù)據(jù),一個是傳統(tǒng)的ETL放到批處理集當(dāng)中,這樣的架構(gòu)也導(dǎo)致了整個平臺的不足。
傳統(tǒng)存儲缺陷主要有三
首先數(shù)據(jù)根據(jù)時間的屬性走了兩條處理邏輯,應(yīng)用程序的處理邏輯會被寫兩遍;
其次在實際場景中,這樣的平臺無法做到實時數(shù)據(jù)和歷史數(shù)據(jù)同時處理,使用這樣架構(gòu)的話,必須要等到批處理拿到正確結(jié)果之后才可以做聚合處理,這便造成延遲的大幅提升;
最后,從成本上,這樣的平臺使得原始數(shù)據(jù)在不同開源項目當(dāng)中被拷貝多份,如在Kafka當(dāng)中會有3次拷貝,到了Spark Steaming再來3次拷貝,對于大數(shù)據(jù)來說,本來數(shù)據(jù)便達(dá)到海量級別,多次的拷貝勢必進一步增加存儲容量,繼而增加存儲設(shè)施采購成本。
傳統(tǒng)存儲將被淘汰
可以說,當(dāng)下企業(yè)應(yīng)用的數(shù)據(jù)處理、存儲平臺多為10年前大數(shù)據(jù)興起時基于Hadoop、Spark等大數(shù)據(jù)框架的平臺,而未來將是流數(shù)據(jù)的時代,10年前的大數(shù)據(jù)框架自然也不適用于未來流數(shù)據(jù)的平臺要被淘汰。所以,要適應(yīng)流數(shù)據(jù)時代,數(shù)據(jù)框架先得改變。目前市面上,京東、戴爾已經(jīng)在著手推進。
結(jié)束語
5G時代到來傳統(tǒng)存儲不但是量級的升級,而且要在框架結(jié)構(gòu)上向流數(shù)據(jù)管理升級。