大數(shù)據(jù)蹣跚前行 邁進(jìn)下半場

人民郵電報(bào)
文立木
近幾年,大數(shù)據(jù)這個(gè)詞突然變得很火,且已經(jīng)在各大企業(yè)中展露頭角。即使如此,但大數(shù)據(jù)在實(shí)際落地中仍然面臨著尷尬的局面。大數(shù)據(jù)想要取得新的突破,還需和人工智能技術(shù)結(jié)合。 近日,兩家大數(shù)據(jù)領(lǐng)域的代表性企業(yè)Cl...

近幾年,大數(shù)據(jù)這個(gè)詞突然變得很火,且已經(jīng)在各大企業(yè)中展露頭角。即使如此,但大數(shù)據(jù)在實(shí)際落地中仍然面臨著尷尬的局面。大數(shù)據(jù)想要取得新的突破,還需和人工智能技術(shù)結(jié)合。

近日,兩家大數(shù)據(jù)領(lǐng)域的代表性企業(yè)Cloudera和Hortonworks宣布了它們相對平等的合并,宣稱新公司將創(chuàng)建世界領(lǐng)先的下一代數(shù)據(jù)平臺并提供業(yè)界首個(gè)企業(yè)數(shù)據(jù)云,這令很多人感到意外,大數(shù)據(jù)的未來何去何從,一時(shí)成為大數(shù)據(jù)產(chǎn)業(yè)從業(yè)人員關(guān)心的話題。

大數(shù)據(jù)蹣跚前行,邁進(jìn)下半場

隨著2012年維克托·邁爾-舍恩伯格《大數(shù)據(jù)時(shí)代》一書的出版,“大數(shù)據(jù)”這一概念乘著互聯(lián)網(wǎng)的浪潮在各行各業(yè)中扮演了舉足輕重的角色,得大數(shù)據(jù)者得天下,業(yè)界紛紛用大數(shù)據(jù)這個(gè)詞來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。

2013年被稱為中國的“大數(shù)據(jù)元年”,大數(shù)據(jù)開始在我國流行,以勢不可擋的姿態(tài)進(jìn)入人們的思想意識,并在社會的各個(gè)領(lǐng)域探索與落地實(shí)踐。涂子沛的《大數(shù)據(jù)》一時(shí)成為暢銷讀物,大數(shù)據(jù)的概念風(fēng)行大江南北,阿里巴巴成為最早提出通過數(shù)據(jù)進(jìn)行企業(yè)數(shù)據(jù)化運(yùn)營的企業(yè)。2015年,我國政府通過了《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動綱要》,大數(shù)據(jù)更是上升為國家戰(zhàn)略。

同美國市場一樣,以Hadoop為代表的大數(shù)據(jù)技術(shù),在中國的大數(shù)據(jù)產(chǎn)業(yè)中也經(jīng)歷了一段狂熱期,在很長一段時(shí)期內(nèi),Hadoop幾乎成了大數(shù)據(jù)的代名詞。在這個(gè)數(shù)據(jù)大爆炸的時(shí)代,企業(yè)需要對海量數(shù)據(jù)存儲、快速處理和分析,Hadoop正是為此而生。但目前看來,這股浪潮正漸漸退去,Hadoop正在逐漸變成一項(xiàng)傳統(tǒng)技術(shù)。

從誕生到現(xiàn)在,Hadoop已經(jīng)走過十多年的歷史,但近年來,以Hadoop為代表的大數(shù)據(jù)產(chǎn)業(yè)生態(tài),在實(shí)際落地中卻面臨著尷尬的局面。首先,大數(shù)據(jù)的價(jià)值被夸大,在投入產(chǎn)出比上差強(qiáng)人意。其次,中小企業(yè)對大數(shù)據(jù)的應(yīng)用極為有限。目前看來,需求主要來源于一些大型企業(yè),數(shù)據(jù)量過大,數(shù)據(jù)分析需求旺盛,但中小企業(yè)自身數(shù)據(jù)量并不大,需求度較低,同時(shí)也缺少相應(yīng)的大數(shù)據(jù)技術(shù)人才。最后,大數(shù)據(jù)管理難度大,數(shù)據(jù)開放共享、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、個(gè)人隱私信息保護(hù)等已經(jīng)成為管理大數(shù)據(jù)最頭疼的問題。今年5月,歐盟數(shù)據(jù)保護(hù)法規(guī)《通用數(shù)據(jù)保護(hù)條例》發(fā)布,對大數(shù)據(jù)企業(yè)采集的個(gè)人隱私數(shù)據(jù)管理工作產(chǎn)生極大的挑戰(zhàn)。

2018年10月底,IBM宣布以高達(dá)340億美元的價(jià)格收購Red Hat,IBM宣稱其將成為全球的頭號混合云提供商,而亞馬遜、微軟、阿里巴巴等云計(jì)算巨頭早已將計(jì)算、存儲、網(wǎng)絡(luò)資源和應(yīng)用軟件(大多來自開源社區(qū))作為在線云服務(wù)來提供,Anaconda產(chǎn)品和營銷高級副總裁Mathew Lodge指出,大數(shù)據(jù)的中心已經(jīng)從Hadoop轉(zhuǎn)移到了云端,在云環(huán)境下的對象存儲系統(tǒng)(如亞馬遜 S3、微軟Azure Blob Storage和Google Cloud Storage)中存儲數(shù)據(jù)比在HDFS中便宜了5倍。

盡管現(xiàn)在就談Hadoop已死為時(shí)尚早,但大數(shù)據(jù)產(chǎn)業(yè)面臨的以上問題已經(jīng)累積很久,也沒有被很好地解決,能否解決以上問題將直接關(guān)乎大數(shù)據(jù)的未來發(fā)展。

人工智能方興未艾,取得新突破

人工智能(AI)是研究用于模擬與延伸擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),目前在商業(yè)和生活中已有大量應(yīng)用場景,被產(chǎn)業(yè)界寄望為下一輪技術(shù)革命,對它的關(guān)注熱度已經(jīng)超過大數(shù)據(jù)。

AI的發(fā)展歷程一波三折,呈螺旋式發(fā)展,在歷史上共經(jīng)歷三個(gè)時(shí)期。首先是1956年達(dá)特茅斯會議提出了AI的概念,但當(dāng)時(shí)的計(jì)算機(jī)處理性能和數(shù)據(jù)容量制約了AI技術(shù)的發(fā)展。然后在20世紀(jì)80年代,專家系統(tǒng)興起,AI算法模型有了重大發(fā)明,包括多層神經(jīng)網(wǎng)絡(luò)和BP反向傳播算法的提出,出現(xiàn)了能與人類下象棋的高度智能機(jī)器,但隨著臺式機(jī)的出現(xiàn),使得AI專家系統(tǒng)走向沒落。再往后就是2006年,Hinton論文開啟了深度學(xué)習(xí)時(shí)代,特別是2016年,AIphaGo大敗李世石,將AI從后臺推到了科技界的聚光燈下,一時(shí)間萬眾矚目。

AI已經(jīng)替代了早些年的大數(shù)據(jù),成為新的商業(yè)科技風(fēng)口。2017年全球AI融資超150億美元,谷歌、亞馬遜、蘋果、微軟以及阿里、百度、騰訊等中美科技巨頭紛紛布局。以深度學(xué)習(xí)為代表的AI算法,PC/移動互聯(lián)網(wǎng)上海量、多維度、高價(jià)值大數(shù)據(jù),以及以GPU、FPGA、ASIC為代表的AI計(jì)算芯片,成為本輪AI發(fā)展的核心驅(qū)動力。

AI技術(shù)體系一般分為基礎(chǔ)層、技術(shù)層和應(yīng)用層,在AI大發(fā)展的浪潮中,AI技術(shù)體系中的各模塊發(fā)展特點(diǎn)各不相同。

基礎(chǔ)層對應(yīng)著算法(包括回歸、分類、聚類、深度學(xué)習(xí)算法等)、算力(即AI芯片)和軟件框架(實(shí)現(xiàn)對AI算法的封裝)。

算法部分,深度學(xué)習(xí)帶動了本輪AI的大躍進(jìn),深度學(xué)習(xí)已經(jīng)在語音識別、圖像識別等領(lǐng)域取得突破,而海量的數(shù)據(jù)和高效的算力支撐是深度學(xué)習(xí)算法實(shí)現(xiàn)的基礎(chǔ),同時(shí)還有很多新的算法理論成果正在被提出和應(yīng)用,如強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、膠囊網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等。

算力部分,由各種AI芯片來提供基礎(chǔ)計(jì)算能力。AI芯片除了傳統(tǒng)的CPU及 GPU 外,還包括為特定場景應(yīng)用而定制的計(jì)算芯片。深度學(xué)習(xí)既要求計(jì)算芯片支持對存儲介質(zhì)中海量數(shù)據(jù)的高效存取,還要能支持一些特定AI計(jì)算需求,因此GPU 成為目前深度學(xué)習(xí)算法應(yīng)用中的首要選擇。FPGA(現(xiàn)場可編程門陣列)可以實(shí)現(xiàn)應(yīng)用場景的高度定制,屬于一種半定制化芯片。ASIC(專用集成電路)是不可配置的高度定制專用計(jì)算芯片,其性能也是最優(yōu)的。TPU(張量處理單元)是谷歌公司設(shè)計(jì)的處理器,非常適合運(yùn)行TensorFlow軟件,還有寒武紀(jì)的NPU,都是ASIC的典型代表。另外,還涌現(xiàn)出各類定制化的高性能AI計(jì)算服務(wù)器,或稱之為GPU一體機(jī),一站式提供AI所需的算力。

軟件框架部分,目前AI軟件框架百花齊放,軟件框架是整個(gè)技術(shù)體系的核心,實(shí)現(xiàn)對AI算法的封裝、數(shù)據(jù)的調(diào)用以及計(jì)算資源的調(diào)度使用。軟件框架好比是AI應(yīng)用開發(fā)的操作系統(tǒng),為開發(fā)者提供編程環(huán)境和算法庫,并按需分配AI芯片等硬件資源,目的是構(gòu)建AI系統(tǒng)開發(fā)和運(yùn)行的軟件環(huán)境。目前主流的AI軟件框架主要有 TensorFlow、MXNet、Caffe、Torch、CNTK、Theano、SciKit-Learn等,軟件框架的用戶包括了AI服務(wù)的開發(fā)者和使用者。

技術(shù)層負(fù)責(zé)解決具體類別的AI技術(shù)問題。其中語音識別技術(shù)負(fù)責(zé)將語音轉(zhuǎn)換為文本或命令,自然語言處理技術(shù)實(shí)現(xiàn)人和機(jī)器之間的自然語言通信,計(jì)算機(jī)視覺技術(shù)用于處理圖形圖像和視頻內(nèi)容的識別。

應(yīng)用層立足于解決各行業(yè)領(lǐng)域?qū)嶋H場景問題,如安防場景下,用于警訊發(fā)現(xiàn)、人臉識別、道路監(jiān)控等;金融場景下,可用于資產(chǎn)異動監(jiān)測、征信風(fēng)控和智能投顧等;醫(yī)療場景下,可應(yīng)用于對醫(yī)學(xué)影像、電子病例處理來輔助診療;還有目前最為火熱的自動駕駛場景,谷歌、特斯拉和百度三巨頭的無人駕駛汽車已經(jīng)上路試運(yùn)行。

以云服務(wù)方式提供AI服務(wù)已成為當(dāng)前的趨勢,AI云服務(wù)一般分為平臺類服務(wù)和軟件類服務(wù)。平臺類服務(wù)包含GPU云服務(wù),深度學(xué)習(xí)平臺等,GPU云服務(wù)是以虛擬機(jī)的形式,為用戶提供GPU計(jì)算資源。深度學(xué)習(xí)平臺則是以TensorFlow、Caffe、MXNet等主流深度學(xué)習(xí)軟件框架為基礎(chǔ),提供相應(yīng)的常用深度學(xué)習(xí)算法和模型,組合各種數(shù)據(jù)源、組件模塊,讓用戶可以基于該平臺對語音、文本、圖片、視頻等海量數(shù)據(jù)進(jìn)行離線模型訓(xùn)練、在線模型預(yù)測及可視化模型評估。軟件類服務(wù)包括提供API程序接口、SDK包、消息服務(wù)接口的形式提供AI相關(guān)的在線網(wǎng)絡(luò)服務(wù),可包括語音識別、文字處理、圖像檢測、智能推薦等應(yīng)用方式。

掘金數(shù)據(jù)資產(chǎn),探索數(shù)據(jù)智能

大數(shù)據(jù)為人工智能發(fā)展提供了基礎(chǔ)資源,人工智能技術(shù)的核心就在于通過計(jì)算找尋大數(shù)據(jù)中的規(guī)律,對具體場景問題進(jìn)行預(yù)測和判斷。想要訓(xùn)練出成功的人工智能算法,需要運(yùn)算力和大量的數(shù)據(jù),其中最重要的就是數(shù)據(jù)量要足夠大。除了數(shù)據(jù)量足夠大,大數(shù)據(jù)還需要通過采集、清洗、標(biāo)注等處理工作后才能夠作為人工智能算法模型訓(xùn)練的輸入,但目前在實(shí)際應(yīng)用中,數(shù)據(jù)流通不暢、數(shù)據(jù)質(zhì)量不高和數(shù)據(jù)安全風(fēng)險(xiǎn)等問題仍然極大制約著人工智能的發(fā)展和應(yīng)用。

大數(shù)據(jù)的未來何去何從,與人工智能技術(shù)如何完美結(jié)合,共同驅(qū)動數(shù)字經(jīng)濟(jì)發(fā)展,數(shù)據(jù)智能或?qū)⒊蔀樾碌臒狳c(diǎn)和大趨勢。

“數(shù)據(jù)智能”是百度公司在2014年提出的概念,百度對數(shù)據(jù)智能的定義,指基于大數(shù)據(jù)引擎,通過大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),對海量數(shù)據(jù)進(jìn)行處理、分析和挖掘,提取數(shù)據(jù)中所包含的有價(jià)值的信息和知識,使數(shù)據(jù)具有“智能”,并通過建立模型尋求現(xiàn)有問題的解決方案以及實(shí)現(xiàn)預(yù)測等。

2018年10月,第五屆中國國際大數(shù)據(jù)大會上發(fā)布的《2018年數(shù)據(jù)智能生態(tài)報(bào)告》中提出,在機(jī)器學(xué)習(xí)、分布式計(jì)算等技術(shù)發(fā)展的基礎(chǔ)上,數(shù)據(jù)逐漸呈現(xiàn)出高維度、高階態(tài)、異構(gòu)性的形式,把能夠?qū)A繑?shù)據(jù)進(jìn)行分析、處理和挖掘,并且通過建模、工程等方式來解決實(shí)際預(yù)測問題,最終實(shí)現(xiàn)決策的行動,稱之為數(shù)據(jù)智能。

對數(shù)據(jù)智能的信息化落地,業(yè)界一般稱之為數(shù)據(jù)智能平臺或數(shù)據(jù)中臺。

據(jù)阿里巴巴公共數(shù)據(jù)平臺負(fù)責(zé)人介紹,阿里巴巴數(shù)據(jù)中臺戰(zhàn)略在2015年首次提出,旨在對內(nèi)提供數(shù)據(jù)基礎(chǔ)建設(shè)和統(tǒng)一的數(shù)據(jù)服務(wù),對外提供服務(wù)商家的統(tǒng)一化數(shù)據(jù)產(chǎn)品。阿里數(shù)據(jù)中臺基于OneData體系建立的集團(tuán)數(shù)據(jù)公共層,從設(shè)計(jì)、開發(fā)、部署和使用上保障了數(shù)據(jù)口徑的規(guī)范和統(tǒng)一,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)全鏈路管理,并提供標(biāo)準(zhǔn)數(shù)據(jù)輸出?;诎⒗飻?shù)據(jù)中臺輸出的生意參謀產(chǎn)品,是阿里巴巴首個(gè)統(tǒng)一的商家數(shù)據(jù)產(chǎn)品平臺,為中小企業(yè)商家提供數(shù)據(jù)披露、分析、診斷、建議、優(yōu)化、預(yù)測等多項(xiàng)數(shù)據(jù)服務(wù)。

另外,據(jù)百度公司的百度數(shù)智平臺官網(wǎng)介紹,該平臺定位為提供大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)分析及展現(xiàn)、數(shù)據(jù)應(yīng)用等產(chǎn)品與服務(wù),包括了大數(shù)據(jù)基礎(chǔ)產(chǎn)品和大數(shù)據(jù)應(yīng)用產(chǎn)品兩大類,大數(shù)據(jù)基礎(chǔ)產(chǎn)品包括大數(shù)據(jù)傳輸Minos、數(shù)據(jù)工廠Pingo、數(shù)據(jù)治理Dayu、數(shù)據(jù)分析與開發(fā)Jarvis、大數(shù)據(jù)可視化Habo等產(chǎn)品,大數(shù)據(jù)應(yīng)用產(chǎn)品包括百度智客、百度覓客、百度匯客、百度客情、百度商情等產(chǎn)品,百度公司將其數(shù)智平臺定位為AI時(shí)代的企業(yè)數(shù)據(jù)管家,服務(wù)于公司內(nèi)部和各行業(yè)合作伙伴。

在2018年10月由中國聯(lián)通大數(shù)據(jù)公司主辦的加速-U10大數(shù)據(jù)價(jià)值峰會上,中國聯(lián)通大數(shù)據(jù)公司負(fù)責(zé)人以“數(shù)智”為主題發(fā)表演講,她認(rèn)為當(dāng)前大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)進(jìn)入“數(shù)智”時(shí)代,聯(lián)通大數(shù)據(jù)的數(shù)智升級,在于更大規(guī)模的數(shù)據(jù)、更深度的智能,打造數(shù)智新架構(gòu)體系,做值得信賴的數(shù)據(jù)智能服務(wù)運(yùn)營商,同時(shí)介紹了中國聯(lián)通UBD數(shù)智中臺的建設(shè)思路。

可以看出,以上代表性企業(yè)建設(shè)數(shù)據(jù)智能平臺或數(shù)據(jù)中臺的意義主要在于,一是幫助企業(yè)管理好內(nèi)部現(xiàn)有的數(shù)據(jù)資產(chǎn),即數(shù)據(jù)資產(chǎn)管理;二是為企業(yè)提供基于大數(shù)據(jù)的預(yù)測分析產(chǎn)品,即人工智能服務(wù)。數(shù)據(jù)資產(chǎn)管理的目的是為了準(zhǔn)備和提供高質(zhì)量的數(shù)據(jù)給人工智能應(yīng)用,對數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化是企業(yè)實(shí)現(xiàn)基于大數(shù)據(jù)提供智能化服務(wù)的關(guān)鍵,也是決定大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的基礎(chǔ)。

大數(shù)據(jù)進(jìn)入下半場,人工智能已然崛起,現(xiàn)有的大數(shù)據(jù)技術(shù)亟須和人工智能技術(shù)結(jié)合,孕育新的產(chǎn)業(yè)生態(tài),從百度、阿里和中國聯(lián)通的做法可以看出,向數(shù)據(jù)智能型企業(yè)轉(zhuǎn)型正在成為大型科技企業(yè)新的行動方向,阿里巴巴提出的“大中臺、小前臺”的做法已經(jīng)成為業(yè)界主流數(shù)字化轉(zhuǎn)型思路,企業(yè)通過建設(shè)數(shù)據(jù)智能平臺或數(shù)據(jù)中臺,打破內(nèi)部數(shù)據(jù)壁壘、盤活數(shù)據(jù)資產(chǎn)、提升數(shù)據(jù)價(jià)值,對外提供統(tǒng)一的智能化數(shù)據(jù)服務(wù),有望再次重構(gòu)大數(shù)據(jù)產(chǎn)業(yè)生態(tài)環(huán)境,進(jìn)一步深挖和釋放大數(shù)據(jù)的價(jià)值紅利。

(原標(biāo)題:大數(shù)據(jù)的未來何去何從?)

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論