作者按
這是一段言者有意聽者也有意的故事。準確地說,是四年前的2016年11月21日,在巴黎,附圖中的這位先生(Jean-Fran?ois SAGEAU,中文名:沙鷗)一句禮貌的發(fā)問“是否能解釋一下中國橋梁為什么裝那么多傳感器?”直接擊中了我,把一個不相干的人一把推向了橋梁結(jié)構(gòu)健康監(jiān)測技術前沿——為此間,不斷與多位專業(yè)人士研討,2018年暑期專程去青島參加“結(jié)構(gòu)健康監(jiān)測國際會議”,在返程飛機上趁熱打鐵草就了《橋梁結(jié)構(gòu)健康監(jiān)測從業(yè)者是否該反思一下》。該文由《橋梁》雜志8月刊出,緊跟著,同濟大學橋梁系孫利民教授撰文《橋梁結(jié)構(gòu)健康監(jiān)測技術要經(jīng)得起實踐檢驗》回應,認為是把問題帶回了原點,引起行業(yè)熱議;2019年2月發(fā)表《大數(shù)據(jù)到底是怎么一回事》,是換個角度進一步再說了;2019年7月發(fā)表《科學不是求對是求錯》,是又一次在更一般化的層面說。此次西安會議回來,覺得還有反復說的必要,尤其《大數(shù)據(jù)到底是怎么一回事》是深入到構(gòu)成和機理說,個人覺得是說明白了一個淺見:搞科學研究不能光趕時髦,要以問題為導向,要實事求是!
Jean-François SAGEAU
大數(shù)據(jù)到底是怎么一回事
“大數(shù)據(jù)”現(xiàn)在風頭正勁,頗有為一切疑難雜癥做解藥的可能,尤其是在“萬物互聯(lián)”情形下,不知道要產(chǎn)生多少“大數(shù)據(jù)”。這些“大數(shù)據(jù)”能如期發(fā)揮作用嗎?這取決于我們?nèi)绾握_認識和對待這個新生事物。為此,發(fā)揮一點研究精神殊為必要。
數(shù)據(jù)的兩種功能
數(shù)據(jù)是為人服務的。不同的生產(chǎn)力發(fā)展水平,有不同的數(shù)據(jù)服務水平。但其功能不外兩種:一是信息不完全下的不確定型決策,二是確定型決策。不確定型決策通常需要多種信息,一般是專家從數(shù)據(jù)中提取信息,供領導決策參考。從數(shù)據(jù)中領悟信息是人腦的特有本領,不同人的本領不同,由此導致的決策也具有不確定性。支持確定型決策的數(shù)據(jù)應用卻不能有不確定性,比如測量工程師,操作系統(tǒng)的數(shù)據(jù)應用是由系統(tǒng)控制的,操作須按確定的規(guī)則進行。這種數(shù)據(jù)使用模式旨在保證大規(guī)模業(yè)務行為的一致性。
一般而言,支持不確定型決策的數(shù)據(jù)應用因為牽扯到人的因素,難以形成連續(xù)性業(yè)務。信息的進一步處理是領導個人的事,人腦決策的慢節(jié)奏抵消了數(shù)據(jù)處理的高效率,效率難以提高。支持確定型決策的數(shù)據(jù)則不同,易于改進和推廣,從而體現(xiàn)出較高的效率。比如銀行業(yè)務系統(tǒng)的信息化和智能化,就是一個業(yè)務不斷規(guī)范、數(shù)據(jù)流不斷擴充,電腦不斷接管、人腦不斷退出,效率不斷提升的過程。
“大數(shù)據(jù)”的產(chǎn)生
大數(shù)據(jù)的產(chǎn)生離不開互聯(lián)網(wǎng),至少在互聯(lián)網(wǎng)大規(guī)模應用出現(xiàn)以前沒有這個名詞。一個較為準確的看法是:互聯(lián)網(wǎng)出現(xiàn)前的海量數(shù)據(jù)因為缺少規(guī)?;瘧枚鴽]有引起廣泛重視,直到互聯(lián)網(wǎng)創(chuàng)造了大數(shù)據(jù)規(guī)模化應用環(huán)境以后,尤其是隨著近年移動智能終端設備的使用,出現(xiàn)了物聯(lián)網(wǎng)、云計算和人工智能之后,大數(shù)據(jù)應用的成功案例才不斷出現(xiàn),大數(shù)據(jù)的價值才得以不斷展現(xiàn)。
大數(shù)據(jù)是海量數(shù)據(jù)與現(xiàn)代信息技術結(jié)合后的產(chǎn)物,因為展現(xiàn)了巨大的價值而被尊奉為“大”。其價值是由系列技術組合創(chuàng)新而來的,離開了應用環(huán)境的支持,大數(shù)據(jù)很難再有價值。這跟沒有汽車與高速公路石油產(chǎn)業(yè)不會這么發(fā)達一樣。
“大數(shù)據(jù)”與傳統(tǒng)數(shù)據(jù)的區(qū)別
單以數(shù)據(jù)量規(guī)模大小來劃分,大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)容易掩蓋兩種數(shù)據(jù)更實質(zhì)的差別。
從數(shù)據(jù)產(chǎn)生過程看,傳統(tǒng)數(shù)據(jù)是假以人手的,即使是機器產(chǎn)生的數(shù)據(jù),也需要經(jīng)過人工核對、填報、匯總、更新,而大數(shù)據(jù)是機器自動記錄、存儲和更新的,其處理過程也是由機器自動完成的,人工干預程度極低。大數(shù)據(jù)是新鮮的、變化快的、可實時處理的,傳統(tǒng)數(shù)據(jù)的時效性則沒那么強。——數(shù)據(jù)資源像蔬菜一樣有保鮮期,極少有越老越值錢的數(shù)據(jù)。數(shù)據(jù)集中存儲很容易,由此而來的數(shù)據(jù)質(zhì)量維護卻是一大難題。數(shù)據(jù)生成得快貶值也快,很多數(shù)據(jù)往往還來不及處理就失效了。
另外,不同的數(shù)據(jù)使用方式對數(shù)據(jù)質(zhì)量有不同的要求,面向確定型決策的應用則對數(shù)據(jù)質(zhì)量非常敏感,例如電子商務中證件信息、通訊信息若不能及時更新可能就無法使用。不確定型決策類應用對數(shù)據(jù)的敏感性則會差一些。大數(shù)據(jù)到底需要有哪些數(shù)據(jù)構(gòu)成,如何更新和維護,不僅應該與應用需求保持同步,而且要有選擇有重點有組織地維護好數(shù)據(jù)質(zhì)量。沒有質(zhì)量要求的數(shù)據(jù),是毫無意義的。
從應用范圍看,大數(shù)據(jù)的形成也使其有先天的局限,比如很多信息是難以數(shù)字化的,或者說數(shù)字化的成本很高,經(jīng)濟上不值得那么去做。例如國內(nèi)外形勢、心情和情緒等??蓴?shù)字化的只是一小部分或一個側(cè)面,這就導致大數(shù)據(jù)通常只適合在局部的很小的領域應用,無法適合面向全局的決策。但大數(shù)據(jù)卻可以自動地綜合使用云計算、物聯(lián)網(wǎng)、智能終端等各種技術資源,建立高效流暢的連續(xù)型服務,常見的互聯(lián)網(wǎng)搜索、電子商務、移動支付、滴滴打車等都是這樣的應用。
“大數(shù)據(jù)”極易形成誤導
大數(shù)據(jù)是中性的,人的行為卻是各有各的目的。無視需求,動輒以建立大數(shù)據(jù)為名,卻可能潛藏種種隱患。尤其物聯(lián)網(wǎng)加入以后,數(shù)據(jù)堆積起來極其方便,如果不能實時處理這些數(shù)據(jù),不能給這些數(shù)據(jù)以合理的解釋和加工,則無異于建造了一個“垃圾堆場”,那些“等著用這些數(shù)據(jù)訓練人工智能”的說法則是純粹的欺世盜名之詞。
大數(shù)據(jù)是有技術導向的,也是為解決問題服務的,可如果連自己的“病”都搞不清楚,卻對著大數(shù)據(jù)膜拜,豈不像中了邪教一樣?
最后呼吁,大家搞科學研究,還是要回到問題導向上來。