2019年12月11日,普華有策發(fā)布《大數(shù)據(jù)行業(yè)概況與發(fā)展特征》。
1、行業(yè)概況
(1)大數(shù)據(jù)的定義
大數(shù)據(jù)是一個(gè)伴隨社會(huì)信息化而誕生,以海量數(shù)據(jù)積累為基礎(chǔ),囊括無(wú)數(shù)條“數(shù)據(jù)產(chǎn)生-數(shù)據(jù)處理-信息提取-數(shù)據(jù)消費(fèi)-新數(shù)據(jù)生產(chǎn)”的環(huán)狀鏈,以降低信息不對(duì)稱、提高決策有效性、推進(jìn)智慧和知識(shí)演進(jìn)為目標(biāo),可廣泛作用于幾乎所有實(shí)體的跨界生態(tài)系統(tǒng)和發(fā)展趨勢(shì)。
(2)大數(shù)據(jù)的關(guān)鍵特征
從上述對(duì)大數(shù)據(jù)的定義,提取出大數(shù)據(jù)的四個(gè)關(guān)鍵特征,分別是:海量化(Vo l ume)、多樣化(Variety)、快速化(Velocity)和價(jià)值化(Value)。
1)海量化
大數(shù)據(jù)首先是數(shù)據(jù)量大。全球數(shù)據(jù)量正飛速增長(zhǎng),遍布世界各個(gè)角落的傳感器、移動(dòng)設(shè)備、在線交易和社交網(wǎng)絡(luò)每天都要生成上百萬(wàn)兆字節(jié)的數(shù)據(jù),數(shù)據(jù)容量增長(zhǎng)的速度大大超過(guò)了硬件技術(shù)的發(fā)展速度,以至于引發(fā)了數(shù)據(jù)存儲(chǔ)和處理的危機(jī)。
2)多樣化
大數(shù)據(jù)的數(shù)據(jù)類型非常多。海量數(shù)據(jù)的危機(jī)并不單純是數(shù)據(jù)量的爆炸性增長(zhǎng),它還牽涉到數(shù)據(jù)類型的不斷增加。原來(lái)的數(shù)據(jù)都可以用二維表結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)中,如常用的 Excel 軟件所處理的數(shù)據(jù),稱之為結(jié)構(gòu)化數(shù)據(jù)。但是現(xiàn)在更多互聯(lián)網(wǎng)多媒體應(yīng)用的出現(xiàn),使諸如圖片、聲音和視頻等非結(jié)構(gòu)化數(shù)據(jù)占到了很大比重。統(tǒng)計(jì)顯示,結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率大概是 32%,而非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)則是 63%,目前全世界非結(jié)構(gòu)化數(shù)據(jù)已占數(shù)據(jù)總量的 80%以上。隨著非結(jié)構(gòu)化數(shù)據(jù)的比重越來(lái)越大,并顯示出其中蘊(yùn)含著不可小覷的商業(yè)價(jià)值和經(jīng)濟(jì)社會(huì)價(jià)值,對(duì)傳統(tǒng)的數(shù)據(jù)分析處理算法和軟件提出了挑戰(zhàn)。
3)快速化
隨著經(jīng)濟(jì)全球化趨勢(shì)形成,生產(chǎn)要素成本不斷上升,企業(yè)面臨的競(jìng)爭(zhēng)環(huán)境越來(lái)越嚴(yán)酷。在此情況下,能夠及時(shí)把握市場(chǎng)動(dòng)態(tài),迅速對(duì)產(chǎn)業(yè)、市場(chǎng)、經(jīng)濟(jì)、消費(fèi)者需求等各方面情況做出深入洞察,并能快速制定出合理準(zhǔn)確的生產(chǎn)、運(yùn)營(yíng)、營(yíng)銷策略,就成為企業(yè)提高競(jìng)爭(zhēng)力的關(guān)鍵。而對(duì)大數(shù)據(jù)的快速處理分析,將為企業(yè)實(shí)時(shí)洞察市場(chǎng)變化、迅速做出響應(yīng)、把握市場(chǎng)先機(jī)提供決策支持。
4)價(jià)值化
價(jià)值是大數(shù)據(jù)的意義所在。隨著社會(huì)信息化程度的不斷提高、數(shù)據(jù)存儲(chǔ)量的不斷增加、數(shù)據(jù)來(lái)源和數(shù)據(jù)類型的不斷多樣化,對(duì)于企業(yè)而言,數(shù)據(jù)正成為企業(yè)的新型資產(chǎn),形成競(jìng)爭(zhēng)力的重要基礎(chǔ)。與曾經(jīng)廣為提倡的“品牌價(jià)值化”一樣,“數(shù)據(jù)價(jià)值化”已經(jīng)成為企業(yè)提高競(jìng)爭(zhēng)力的下一個(gè)關(guān)鍵點(diǎn)。
(3)大數(shù)據(jù)相關(guān)技術(shù)
數(shù)據(jù)采集:ETL 工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL 等。
基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
數(shù)據(jù)處理:自然語(yǔ)言處理
統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T 檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic 回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析、bootstrap 技術(shù)等等。
數(shù)據(jù)挖掘:分類 (Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。結(jié)果呈現(xiàn):可視化、BI 等。
(4)大數(shù)據(jù)技術(shù)的價(jià)值
擁有海量數(shù)據(jù)本身并不能創(chuàng)造出多大價(jià)值,需要采取技術(shù)手段進(jìn)行處理分析才能獲取其智能的,深入的有價(jià)值的信息。大數(shù)據(jù)技術(shù)就是從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)。目前所說(shuō)的”大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過(guò)解決巨量數(shù)據(jù)處理問(wèn)題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。
2、行業(yè)周期性、季節(jié)性與區(qū)域性特點(diǎn)
大數(shù)據(jù)行業(yè)作為一個(gè)成長(zhǎng)性行業(yè),在發(fā)展過(guò)程中面臨著多個(gè)良好發(fā)展機(jī)遇,如互聯(lián)網(wǎng)金融對(duì)金融行業(yè)的滲透引發(fā)金融機(jī)構(gòu)新一輪的市場(chǎng)競(jìng)爭(zhēng)。隨著金融機(jī)構(gòu)使用數(shù)據(jù)挖掘來(lái)支撐精細(xì)化管理和精細(xì)化營(yíng)銷的理念深入,大數(shù)據(jù)需求將呈現(xiàn)出高速發(fā)展的態(tài)勢(shì)。
總體上,大數(shù)據(jù)行業(yè)的發(fā)展主要與下游多個(gè)產(chǎn)業(yè)的 IT 投資規(guī)模保持相關(guān),并不存在明顯的行業(yè)周期性。
不同地區(qū)的信息化程度和對(duì)數(shù)據(jù)分析、數(shù)據(jù)挖掘的接受程度決定了該地區(qū)的大數(shù)據(jù)的市場(chǎng)需求,由于當(dāng)前國(guó)家各級(jí)政府的高度關(guān)注和大力支持,各個(gè)地區(qū)各個(gè)行業(yè)對(duì)于大數(shù)據(jù)的關(guān)注度普遍較高,因此大數(shù)據(jù)行業(yè)不存在明顯的區(qū)域性。但由于開(kāi)展大數(shù)據(jù)業(yè)務(wù)對(duì)于行業(yè)客戶本身的信息化基礎(chǔ)要求較高。因此發(fā)達(dá)地區(qū)還是一定程度上優(yōu)于信息化基礎(chǔ)薄弱的區(qū)域。
電力、金融、能源等行業(yè)內(nèi)的大中型企業(yè)往往在年末相對(duì)集中支付合同款項(xiàng),大數(shù)據(jù)領(lǐng)域內(nèi)企業(yè)的現(xiàn)金流量呈現(xiàn)出一定的季節(jié)性。然而,電力、金融、能源等領(lǐng)域內(nèi)客戶的大數(shù)據(jù)系統(tǒng)需要持續(xù)的運(yùn)營(yíng)和升級(jí),相應(yīng)的大數(shù)據(jù)業(yè)務(wù)本身并不存在季節(jié)性特征。