2019年全球大數(shù)據(jù)產(chǎn)業(yè)市場現(xiàn)狀及發(fā)展趨勢分析 Spark、kafka處理系統(tǒng)占據(jù)主導(dǎo)地位

前瞻產(chǎn)業(yè)研究院
隨著物聯(lián)網(wǎng)、電子商務(wù)、社會化網(wǎng)絡(luò)的快速發(fā)展,全球大數(shù)據(jù)儲量迅猛增長,成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎(chǔ)。根據(jù)國際數(shù)據(jù)公司(IDC)的監(jiān)測數(shù)據(jù)顯示,2013年全球大數(shù)據(jù)儲量為4.3ZB(相當(dāng)于47.24億個1TB容量的移動硬盤),2018年全球大數(shù)據(jù)儲量達(dá)到33.0ZB,同比增長52.8%。

1、大數(shù)據(jù)產(chǎn)業(yè)具有四大特性

大數(shù)據(jù)(big data),是指需要通過快速獲取、處理、分析以從中提取價值的海量、多樣化的交易數(shù)據(jù)、交互數(shù)據(jù)與傳感數(shù)據(jù),其規(guī)模往往達(dá)到了PB(1024TB)級。不同機(jī)構(gòu)對大數(shù)據(jù)也有不同的定義。

麥肯錫對大數(shù)據(jù)的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。

移動信息化研究中心對大數(shù)據(jù)的定義:大數(shù)據(jù)是幫助企業(yè)利用海量數(shù)據(jù)資產(chǎn),實時、精確地洞察未知邏輯領(lǐng)域的動態(tài)變化,并快速重塑業(yè)務(wù)流程、組織和行業(yè)的新興數(shù)據(jù)管理技術(shù)。

IDC認(rèn)為大數(shù)據(jù)具備海量(volume)、異構(gòu)(Variety)、高速(Velocity)和價值(Value)四大特性。

2、全球大數(shù)據(jù)儲量規(guī)模爆發(fā)式增長

隨著物聯(lián)網(wǎng)、電子商務(wù)、社會化網(wǎng)絡(luò)的快速發(fā)展,全球大數(shù)據(jù)儲量迅猛增長,成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎(chǔ)。根據(jù)國際數(shù)據(jù)公司(IDC)的監(jiān)測數(shù)據(jù)顯示,2013年全球大數(shù)據(jù)儲量為4.3ZB(相當(dāng)于47.24億個1TB容量的移動硬盤),2018年全球大數(shù)據(jù)儲量達(dá)到33.0ZB,同比增長52.8%。

從大數(shù)據(jù)儲量分布情況來看,美國大數(shù)據(jù)儲量占比為21%,EMEA(歐洲、中東、非洲)占比為30%,中國地區(qū)占比為23%。

2013-2018年全球大數(shù)據(jù)儲量統(tǒng)計及增長情況

數(shù)據(jù)來源:前瞻產(chǎn)業(yè)研究院整理

2018年全球大數(shù)據(jù)儲量區(qū)域分布情況

數(shù)據(jù)來源:前瞻產(chǎn)業(yè)研究院整理

3、流式處理占主導(dǎo)地位,Kafka和Spark成為主流應(yīng)用

根據(jù)數(shù)據(jù)處理的時效性,大數(shù)據(jù)處理系統(tǒng)可以分為批式(batch)大數(shù)據(jù)和流式(streaming)大數(shù)據(jù)兩類。其中,批式大數(shù)據(jù)又被稱為歷史大數(shù)據(jù),流式大數(shù)據(jù)又被稱為實時大數(shù)據(jù)。

以Hadoop為代表的批處理大數(shù)據(jù)系統(tǒng)需先將數(shù)據(jù)匯聚成批,經(jīng)批量預(yù)處理后加載至分析型數(shù)據(jù)倉庫中,以進(jìn)行高性能實時查詢。這類系統(tǒng)雖然可對完整大數(shù)據(jù)集實現(xiàn)高效的即席查詢,但無法查詢到最新的實時數(shù)據(jù),存在數(shù)據(jù)遲滯高等問題。

以Spark Streaming、Storm、Flink為代表的流處理大數(shù)據(jù)系統(tǒng)將實時數(shù)據(jù)通過流處理,逐條加載至高性能內(nèi)存數(shù)據(jù)庫中進(jìn)行查詢。此類系統(tǒng)可以對最新實時數(shù)據(jù)實現(xiàn)高效預(yù)設(shè)分析處理模型的查詢,數(shù)據(jù)遲滯低。

隨著互聯(lián)網(wǎng)、計算機(jī)行業(yè)快速發(fā)展,企業(yè)對數(shù)據(jù)的時效性越發(fā)重視,企業(yè)應(yīng)用也逐漸由批處理數(shù)據(jù)平臺向?qū)崟r的流數(shù)據(jù)數(shù)據(jù)平臺轉(zhuǎn)移。以流數(shù)據(jù)處理為代表的Spark、kafka大數(shù)據(jù)系統(tǒng)近年來大放異彩,取代了Hadoop的主導(dǎo)地位。

大數(shù)據(jù)實施流式處理特點(diǎn)分析情況

資料來源:前瞻產(chǎn)業(yè)研究院整理

2018年全球主要大數(shù)據(jù)處理系統(tǒng)熱度排行情況

數(shù)據(jù)來源:前瞻產(chǎn)業(yè)研究院整理

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論