數(shù)據(jù)的五個(gè)特征、三道難題、一種自大

閆德利
數(shù)據(jù)是一種客觀存在,是關(guān)于事物的事實(shí)描述,可通過測量、記錄、發(fā)現(xiàn)等方式去獲得。數(shù)據(jù)具有無限性、易復(fù)制性、非均質(zhì)性、易腐性和原始性五個(gè)特征。

360截圖16251112669372.png

本文來自微信公眾號“騰訊研究院”,閆德利,騰訊研究院資深專家。

“數(shù)據(jù)是新石油”(Clive Humby,2006)。如果一定要找出一樣,數(shù)據(jù)最像的還真是石油。兩者都是重要的戰(zhàn)略資源,都是驅(qū)動(dòng)世界的動(dòng)力。但數(shù)據(jù)只是數(shù)據(jù),它不是其它任何東西。

五個(gè)特征

數(shù)據(jù)是一種客觀存在,是關(guān)于事物的事實(shí)描述,可通過測量、記錄、發(fā)現(xiàn)等方式去獲得。數(shù)據(jù)具有無限性、易復(fù)制性、非均質(zhì)性、易腐性和原始性五個(gè)特征。

(1)無限性。與實(shí)物不同,數(shù)據(jù)不會因使用而耗盡,反而是因使用而產(chǎn)生,會不斷被創(chuàng)造,會越來越多。“數(shù)據(jù)將成為最基本的客觀產(chǎn)物,無論做什么,我們都在產(chǎn)生數(shù)據(jù)”(Paul Sonderegger,2017)。根據(jù)DASA R&T《2016-2045年新興科技趨勢》,全球新產(chǎn)生的數(shù)據(jù)量大約每兩年翻一番。這堪稱大數(shù)據(jù)摩爾定律,數(shù)據(jù)大爆炸是必然。

360截圖16251112669372.png

(2)易復(fù)制性。數(shù)據(jù)可以快速地以近乎零成本的方式進(jìn)行復(fù)制,可供多人同時(shí)使用,可多次循環(huán)使用,一個(gè)人的使用可以不排斥和妨礙別人對其使用,不同人之間在使用上不存在直接的利益沖突。易復(fù)制性使得數(shù)據(jù)具有一定程度的非競爭性和非排他性,但數(shù)據(jù)不是公共品,有公共數(shù)據(jù)、企業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)之分。

(3)非均質(zhì)性?!稘摲分兄x若林有句話:“現(xiàn)在兩根金條放在這兒,你告訴我哪一根是高尚的,哪一根是齷齪的?”這說明了一個(gè)道理——金條是均質(zhì)的,兩根金條有著同等的價(jià)值表現(xiàn)。均質(zhì)性普遍存在,例如出廠的商品、油電氣等能源。而數(shù)據(jù)是非均質(zhì)的,一比特?cái)?shù)據(jù)跟另一比特?cái)?shù)據(jù)所包含的價(jià)值完全不同,同一份數(shù)據(jù)對不同人的價(jià)值也不一樣。正如王欽敏(2023)所說:“數(shù)據(jù)價(jià)值因使用對象而異,因應(yīng)用場景而異,因?qū)I(yè)化數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)而異。”

(4)易腐性。數(shù)據(jù)是一種易腐品,會隨著時(shí)間的流逝而迅速貶值。根據(jù)IBM(2015)數(shù)據(jù),60%的非結(jié)構(gòu)化數(shù)據(jù)在幾毫秒內(nèi)就失去真正價(jià)值。這意味著,數(shù)據(jù)的價(jià)值很大程度體現(xiàn)在時(shí)效性上,超過一半的數(shù)據(jù)在產(chǎn)生的那一刻就不再有價(jià)值,我們可稱之為“一秒鐘定律”。能得到分析處理并產(chǎn)生實(shí)際效用的數(shù)據(jù)則更少。全球90%的數(shù)據(jù)從未得到分析使用(IBM,2015;DASA R&T,2016)。2020年被創(chuàng)建或復(fù)制的數(shù)據(jù)中,只有不到2%被保存并保留到2021年(來源:IDC)。

(5)原始性。數(shù)據(jù)是原始的,本身并沒有意義,只有對它進(jìn)行處理分析,才能轉(zhuǎn)變成對人們有用的信息。如果說數(shù)據(jù)是新石油,那么分析就是內(nèi)燃機(jī)。信息是數(shù)據(jù)提煉后的產(chǎn)物;信息經(jīng)人腦加工后形成知識,知識具有主觀性;數(shù)據(jù)、信息和知識是歷史的,而智慧是關(guān)于未來的,是人們運(yùn)用知識做出決策和判斷的能力。

對數(shù)據(jù)、信息、知識和智慧之間的關(guān)系,福特漢姆大學(xué)Zeleny教授(1987)提出了DIKW金字塔模型(如下圖所示),從底層到頂層依次是:

數(shù)據(jù)(Data):Know nothing,一無所知;

信息(Information):Know what,知道是什么;

知識(Knowledge):Know how,知道怎么做;

智慧(Wisdom):Know why,知道為什么。

360截圖16251112669372.png

圖DIKW金字塔模型

三道難題

一個(gè)人和周圍人的差距主要在于掌握信息、理解信息和運(yùn)用信息的能力不同。數(shù)據(jù)和信息至關(guān)重要。但當(dāng)下有三道難題困擾著數(shù)據(jù)健康有序發(fā)展,即數(shù)據(jù)確權(quán)、數(shù)據(jù)交易和數(shù)據(jù)要素。我們要迎難而上、敢于作為,以極大的勇氣和智慧破解一切困難。

(1)數(shù)據(jù)確權(quán)。關(guān)云長身在曹營心在漢。對物理存在的身體之歸屬,我們比較容易判斷;而內(nèi)心和靈魂是縹緲不定的,具有不確定性、隱秘性和多元性,不乏同時(shí)屬于多個(gè)主體的情況。數(shù)據(jù)與之類似,人們很難清晰判定它屬于誰,很難對其進(jìn)行有效的物理切割和合理的權(quán)利分配。確權(quán)的復(fù)雜性與數(shù)據(jù)本身的特征有關(guān),也與權(quán)利主體的多樣性有關(guān)。數(shù)據(jù)鏈條涉及多個(gè)參與者,他們?nèi)币徊豢汕覠o法單獨(dú)發(fā)揮作用,具有不同的訴求。加之,數(shù)據(jù)的價(jià)值密度低,所產(chǎn)生的效益難以清晰衡量,這使得數(shù)據(jù)確權(quán)的成本極高。

(2)數(shù)據(jù)交易。交易是一種互利互惠的行為,是人類社會中最具自發(fā)性和最具積極性的活動(dòng)。唯有雙方都從中獲益,交易才會發(fā)生。對數(shù)據(jù)而言,交易則是一個(gè)難題。聯(lián)合國貿(mào)發(fā)會議(2019)指出:“數(shù)據(jù)具有重要的使用(或?yàn)E用)價(jià)值,但不像大多數(shù)經(jīng)濟(jì)商品那樣具有交換價(jià)值。”現(xiàn)實(shí)中的交易一般具有明確的價(jià)格,是可重復(fù)、可預(yù)期的。例如,商店把明碼標(biāo)價(jià)的奶茶重復(fù)售賣給不同的消費(fèi)者,消費(fèi)者獲得的效用是可預(yù)期的——止渴、美味、社交。數(shù)據(jù)非均質(zhì)、價(jià)值不易衡量、定價(jià)困難、預(yù)期效用難以管理、有“搭便車”風(fēng)險(xiǎn)……這都是數(shù)據(jù)交易中要面對的問題。

360截圖16251112669372.png

(3)數(shù)據(jù)要素。生產(chǎn)要素是人們用來生產(chǎn)商品和勞務(wù)所必備的基本資源。它促進(jìn)生產(chǎn),但不會成為產(chǎn)品和勞務(wù)的一部分,也不會因生產(chǎn)過程而發(fā)生顯著變化。新古典學(xué)派創(chuàng)始人馬歇爾在其名著《經(jīng)濟(jì)學(xué)原理》(1890)中提出了生產(chǎn)要素四元論,即土地、勞動(dòng)、資本和企業(yè)家才能。梅宏院士指出(2023):“把數(shù)據(jù)確立為重要的生產(chǎn)要素是中國的首創(chuàng)。”然而,在經(jīng)濟(jì)學(xué)上定義數(shù)據(jù)生產(chǎn)要素是一件困難的事情,尚未看到有影響力和說服力的成果,迫切需要經(jīng)濟(jì)學(xué)家們加緊研究。

避免大數(shù)據(jù)自大

提起數(shù)據(jù)挖掘的經(jīng)典案例,很多人會想到“啤酒加尿布”和谷歌流感趨勢。實(shí)際上前者是一個(gè)故事,早在1992年就已出現(xiàn),并沒有真正發(fā)生過;后者曾提前預(yù)測出流感到來,不過因后來的準(zhǔn)確性太低而早已被關(guān)閉。

數(shù)據(jù)的重要性毋庸置疑。人們喜歡在“數(shù)據(jù)”之前加一個(gè)“大”字,以彰顯非同尋常。人們也時(shí)常陷入“大數(shù)據(jù)自大(big data hubris)”的誤區(qū)。數(shù)據(jù)能解決很多問題,但有局限性,通過數(shù)據(jù)難以預(yù)測突變。一只歲月靜好的豬,無法通過既往數(shù)據(jù)預(yù)測出春節(jié)的黑天鵝;馬車的出行數(shù)據(jù),可以使人們獲得“一匹更快的馬”,但不能使人們發(fā)明出汽車。數(shù)據(jù)是企業(yè)的競爭優(yōu)勢,但不是萬能的。一個(gè)好的APP不會因有歷史數(shù)據(jù)就能高枕無憂,它時(shí)刻受到創(chuàng)新者的挑戰(zhàn),只能“各領(lǐng)風(fēng)騷僅幾年”;創(chuàng)業(yè)者哪怕沒有數(shù)據(jù)、沒有積累,也可以推出創(chuàng)新產(chǎn)品,獲得用戶,取得成功。從這個(gè)角度上說,沒有數(shù)據(jù)也不是不行。

360截圖16251112669372.png

大數(shù)據(jù)時(shí)代,“要相關(guān),不要因果”被奉為圭臬。“關(guān)鍵是人的分析推理找出為什么兩件事物同時(shí)或相繼出現(xiàn),找對了理由才是新知識或新發(fā)現(xiàn)的規(guī)律,相關(guān)性本身并沒有多大價(jià)值”(李國杰,2015)。只信“數(shù)”不如無“數(shù)”。我們要綜合運(yùn)用實(shí)驗(yàn)觀察、邏輯演繹、歸納提煉等科學(xué)方法,探究事物之間的關(guān)系和規(guī)律,才能挖掘出有價(jià)值的信息和結(jié)論。

我們重視數(shù)據(jù),根本上不是因?yàn)閿?shù)據(jù)本身重要,而是尊重客觀世界和客觀規(guī)律的實(shí)事求是精神重要,數(shù)據(jù)即事實(shí)。正如李國杰院士(2015)所言:“重視數(shù)據(jù)就是強(qiáng)調(diào)用事實(shí)說話、按理性思維的科學(xué)精神。”

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論