在下一代的革命中,無論是工業(yè)4.0(國內(nèi)叫中國制造2025)還是物聯(lián)網(wǎng)(甚至是一個全新的協(xié)議與標準),隨著數(shù)據(jù)科學與云計算能力(甚至是基于區(qū)塊鏈的分布式計算技術(shù))的發(fā)展,唯獨數(shù)據(jù)是所有系統(tǒng)的核心。
萬物互聯(lián)、萬物數(shù)據(jù)化之后,基于數(shù)據(jù)的個性化、智能化將是一次全新的革命,將超越100多年前開始的自動化生產(chǎn)線的工業(yè)3.0,給人類社會整體的生產(chǎn)力提升帶來一次根本性的突破,實現(xiàn)從0到1的巨大變化。正是在這個意義上,這是一場商業(yè)模式的范式革命。商業(yè)的未來、知識的未來、文明的未來,本質(zhì)上就是人的未來。而基于數(shù)據(jù)智能的智能商業(yè),就是未來的起點。大數(shù)據(jù)的第一要務就是需要有數(shù)據(jù)。
關(guān)于數(shù)據(jù)來源,普遍認為互聯(lián)網(wǎng)及物聯(lián)網(wǎng)是產(chǎn)生并承載大數(shù)據(jù)的基地?;ヂ?lián)網(wǎng)公司是天生的大數(shù)據(jù)公司,在搜索、社交、媒體、交易等各自的核心業(yè)務領(lǐng)域,積累并持續(xù)產(chǎn)生海量數(shù)據(jù)。能夠上網(wǎng)的智能手機和平板電腦越來越普遍,這些移動設備上的App都能夠追蹤和溝通無數(shù)事件,從App內(nèi)的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個人信息資料或狀態(tài)報告事件(如地點變更,即報告一個新的地理編碼)。非結(jié)構(gòu)數(shù)據(jù)廣泛存在于電子郵件、文檔、圖片、音頻、視頻以及通過博客、維基,尤其是社交媒體產(chǎn)生的數(shù)據(jù)流中。這些數(shù)據(jù)為使用文本分析功能進行分析提供了豐富的數(shù)據(jù)源泉,還包括電子商務購物數(shù)據(jù)、交易行為數(shù)據(jù)、Web服務器記錄的網(wǎng)頁點擊流數(shù)據(jù)日志。
物聯(lián)網(wǎng)設備每時每刻都在采集數(shù)據(jù),設備數(shù)量和數(shù)據(jù)量都在與日俱增,包括功能設備創(chuàng)建或生成的數(shù)據(jù),例如智能電表、智能溫度控制器、工廠機器和連接互聯(lián)網(wǎng)的家用電器。這些設備可以配置為與互聯(lián)網(wǎng)絡中的其他節(jié)點通信,還可以自動向中央服務器傳輸數(shù)據(jù),這樣就可以對數(shù)據(jù)進行分析。機器和傳感器數(shù)據(jù)是來自物聯(lián)網(wǎng)(IoT)所產(chǎn)生的主要例子。
這兩類數(shù)據(jù)資源作為大數(shù)據(jù)金礦,正在不斷產(chǎn)生各類應用。比如,來自物聯(lián)網(wǎng)的數(shù)據(jù)可以用于構(gòu)建分析模型,實現(xiàn)連續(xù)監(jiān)測(如當傳感器值表示有問題時進行識別)和預測(如警示技術(shù)人員在真正出問題之前檢查設備)。國外出現(xiàn)了這類數(shù)據(jù)資源應用的不少經(jīng)典案例。還有一些企業(yè),在業(yè)務中也積累了許多數(shù)據(jù),如房地產(chǎn)交易、大宗商品價格、特定群體消費信息等。從嚴格意義上說,這些數(shù)據(jù)資源還算不上大數(shù)據(jù),但對商業(yè)應用而言,卻是最易獲得和比較容易加工處理的數(shù)據(jù)資源,也是當前在國內(nèi)比較常見的應用資源。
在國內(nèi)還有一類是政府部門掌握的數(shù)據(jù)資源,普遍認為質(zhì)量好、價值高,但開放程度差。許多官方統(tǒng)計數(shù)據(jù)通過灰色渠道流通出來,經(jīng)過加工成為各種數(shù)據(jù)產(chǎn)品?!洞髷?shù)據(jù)綱要》把公共數(shù)據(jù)互聯(lián)開放共享作為努力方向,認為大數(shù)據(jù)技術(shù)可以實現(xiàn)這個目標。實際上,長期以來,政府部門間的信息數(shù)據(jù)相互封閉割裂是治理問題而不是技術(shù)問題。面向社會的公共數(shù)據(jù)開放愿望雖十分美好,但恐怕一段時間內(nèi)可望而不可即。
對于某一個行業(yè)的大數(shù)據(jù)場景,一是要看這個應用場景是否真有數(shù)據(jù)支撐,數(shù)據(jù)資源是否可持續(xù),來源渠道是否可控,數(shù)據(jù)安全和隱私保護方面是否有隱患;二是要看這個應用場景的數(shù)據(jù)資源質(zhì)量如何,是“富礦”還是“貧礦”,能否保障這個應用場景的實效。對于來自自身業(yè)務的數(shù)據(jù)資源,具有較好的可控性,數(shù)據(jù)質(zhì)量一般也有保證,但數(shù)據(jù)覆蓋范圍可能有限,需要借助其他資源渠道;對于從互聯(lián)網(wǎng)抓取的數(shù)據(jù),技術(shù)能力是關(guān)鍵,既要有能力獲得足夠大的量,又要有能力篩選出有用的內(nèi)容;對于從第三方獲取的數(shù)據(jù),需要特別關(guān)注數(shù)據(jù)交易的穩(wěn)定性。數(shù)據(jù)從哪里來是分析大數(shù)據(jù)應用的起點,如果一個應用沒有可靠的數(shù)據(jù)來源,再好、再高超的數(shù)據(jù)分析技術(shù)都是無本之木。我們經(jīng)常看到,許多應用并沒有可靠的數(shù)據(jù)來源,或者數(shù)據(jù)來源不具備可持續(xù)性,只是借助大數(shù)據(jù)風口套取資金。這是很可悲的。