大數(shù)據(jù)就是新時代的石油,國家重要的基礎(chǔ)性戰(zhàn)略資源,已經(jīng)成為被爭奪的對象。各國在大力發(fā)展大數(shù)據(jù)的七年時間,也遇到了一些問題,特別是最近的Facebook5000萬數(shù)據(jù)泄露、今日頭條關(guān)閉多個頻道等事件的發(fā)生,讓我們意識到大數(shù)據(jù)必須得進行方向性的調(diào)整。
這是又一個三角困境,技術(shù)上追求很多目標時,目標之間容易出現(xiàn)沖突。尤其數(shù)據(jù)方面,個人隱私、國家安全、便利性三者不可兼得,只能選擇兩個。2013年奧巴馬講到,不可能既享有100%的安全,又享有100%的隱私,同時沒有絲毫的不便,我們不得不做出選擇。大數(shù)據(jù)也需要做出選擇,二選一時會發(fā)生一些調(diào)整。
這些事件意味著什么?短期看,說明一些大數(shù)據(jù)應(yīng)用真正落地。如果大數(shù)據(jù)在用戶畫像及營銷沒有落地,這些事情不會發(fā)生。這也反向證明大數(shù)據(jù)真的已經(jīng)成功應(yīng)用,所以才能出現(xiàn)問題。幾年前搞云計算時說可靠性不行,我說恰恰說明是人們開始廣泛使用云計算,要不然不會關(guān)心這些問題。中期看,保護個人隱私必然是未來3年或更長時間內(nèi)的重中之重,全行業(yè)必須團結(jié)起來,為保護用戶隱私制定規(guī)則,這也需要恰當?shù)募夹g(shù)手段提供支持。長期看,最近一系列事件的爆發(fā)是不是意味著已經(jīng)使用20多年的互聯(lián)網(wǎng)免費模式宣告終結(jié)??峙逻@是更大的議題,免費模式都是以用戶數(shù)據(jù)換取用戶服務(wù)的便利性。
大數(shù)據(jù)行業(yè)正在回歸理性
個人判斷,行業(yè)發(fā)展需要調(diào)整變化。從過去7年時間強調(diào)技術(shù)、發(fā)展,下一步更多關(guān)注合規(guī)、隱私保護、安全。任何產(chǎn)業(yè)發(fā)展到第二階段必須要強調(diào)關(guān)注合規(guī)性、安全及隱私問題,早期會重點關(guān)心技術(shù)與發(fā)展。現(xiàn)在,正在從幾年來高估大數(shù)據(jù)的影響開始轉(zhuǎn)變?yōu)榈凸来髷?shù)據(jù)的影響,因為人總是會高估技術(shù)短期影響,而低估技術(shù)的長期影響。我們即將迎來開始低估大數(shù)據(jù)長期影響的階段,現(xiàn)在進入回歸理性階段,行業(yè)正在回歸理性。對大數(shù)據(jù)以前高估的價值更加理性,以前不太關(guān)注的隱私必須補課,這需要3年左右的時間。2021年前后大數(shù)據(jù)會迎來新一輪的黃金發(fā)展期。
從市場看,我們還將繼續(xù)維持規(guī)模小、增速快的態(tài)勢。過去幾年大數(shù)據(jù)的主要應(yīng)用場景是互聯(lián)網(wǎng),未來幾年的核心是大數(shù)據(jù)與傳統(tǒng)行業(yè)、實體經(jīng)濟的深度融合。十九大報告講的很清楚,我們必將迎來的是傳統(tǒng)行業(yè)如何更好使用大數(shù)據(jù)的過程,因為傳統(tǒng)行業(yè)更容易賺錢。
從技術(shù)看,開源正在引領(lǐng)各行各業(yè),大數(shù)據(jù)也不例外。下一步需要實現(xiàn)在線處理事物的分布式。OLAP/OLTP的融合是新的趨勢。隨著產(chǎn)業(yè)的發(fā)展完善,意味著產(chǎn)業(yè)的分工越來越細,相互之間的協(xié)作會越來越麻煩。反推的結(jié)果是我們所做的大數(shù)據(jù)產(chǎn)品與技術(shù)需要標準化、模塊化。因為不可能龐大體量堆在一起,運維需要自動化比較好理解,系統(tǒng)越來越龐大,機器產(chǎn)生的事情只能用機器解決,大數(shù)據(jù)產(chǎn)生的運維問題只能靠大數(shù)據(jù)產(chǎn)生的自動化運維解決。
容器化,今天的大數(shù)據(jù)也需要借助容器的思想封裝交付。幾年前發(fā)現(xiàn)軟件開發(fā)交付等與環(huán)境關(guān)系過于密切,今天看到大數(shù)據(jù)也是這個問題。大數(shù)據(jù)遷移時與環(huán)境配置的關(guān)系過于密切,我們應(yīng)該發(fā)展類似于容器的技術(shù)。專用硬件,隨著摩爾定律的減速,越來越多地需要靠一些專用的而不是通用的硬件解決問題。面向特定場景數(shù)據(jù)處理的專用硬件或軟硬件結(jié)合會是重要的發(fā)展方向。
從算法看,算法的透明度會成為需要關(guān)心的議題。隨著數(shù)據(jù)越來越多,數(shù)據(jù)越來越開放,要打破算法黑箱,解決算法的歧視問題、算法殺熟問題和算法疫情。如果算法一樣,尤其金融市場會引發(fā)算法共振或算法疫情問題。開放算法是必須要考慮的議題,剛剛討論過網(wǎng)絡(luò)中立問題,算法該不該中立?算法該不該透明?算法該不該監(jiān)管?我認為是需要的。
從資產(chǎn)看,過去幾年知道數(shù)據(jù)是資產(chǎn),市場教育已完成。但如何把數(shù)據(jù)變成資產(chǎn)還在迷茫中,前幾年想是否通過財務(wù)手段把數(shù)據(jù)變?yōu)橘Y產(chǎn),現(xiàn)在看是不夠的,需要更多的技術(shù)支撐。未來3年要學習如何把數(shù)據(jù)變成資產(chǎn),不僅通過資本與管理的手段,還需要新的技術(shù),需要創(chuàng)新算法、創(chuàng)新技術(shù)、創(chuàng)新模式。
從流通看,我們還處于男耕女織的時代,據(jù)調(diào)查50%的大數(shù)據(jù)企業(yè)使用的數(shù)據(jù)還是自己生產(chǎn)的或隔壁家生產(chǎn)的。大數(shù)據(jù)說是資產(chǎn),但它沒有變成資產(chǎn)。我們說大數(shù)據(jù)是商品,但大數(shù)據(jù)沒有變成商品。我們只知道大數(shù)據(jù)很有價值,但如何流通還處于早期的階段,需要很多技術(shù)創(chuàng)新、理論創(chuàng)新。今天的經(jīng)濟學更多建立在工業(yè)經(jīng)濟的假設(shè)之上,討論工廠、工人與產(chǎn)品,用貨幣衡量價值,這些都是工業(yè)時代的思維。數(shù)字時代需要數(shù)字時代的經(jīng)濟學家解決數(shù)據(jù)流通存在的理論問題、方法問題。處于從農(nóng)耕產(chǎn)品的貿(mào)易到數(shù)字產(chǎn)品貿(mào)易的轉(zhuǎn)折,現(xiàn)在不太清楚數(shù)據(jù)如何做貿(mào)易,我們正在探索之中。需要實現(xiàn)工業(yè)經(jīng)濟學到數(shù)字經(jīng)濟學的躍遷。
從價值看,需要新的用戶,新的價值。數(shù)據(jù)保護問題更像隱私危機,我們說大數(shù)據(jù)是石油,石油也經(jīng)歷過危機,愛迪生危機。煤油的主要用途是照明,愛迪生發(fā)明電燈后是不是石油面臨危機?石油的用途只是照明,可是電燈來了。后來改善石油的冶煉技術(shù),煉出汽油,更加廣泛地用于動力。今天大數(shù)據(jù)主要面向人,面向人的大數(shù)據(jù)分析處理應(yīng)用必然會帶來隱私危機。只要知道的都是隱私,不知道的就不是隱私。凡是能夠發(fā)現(xiàn)處理的最終都會被歸于用戶隱私范圍內(nèi),必然會導(dǎo)致隱私危機。我們需要新的模式與新的創(chuàng)新,將大數(shù)據(jù)的使用范圍擴展,使用價值擴展。不僅僅面向人,可能要面向物聯(lián)網(wǎng)、工業(yè)等各行各業(yè)。而過去幾年更多處理人產(chǎn)生的數(shù)據(jù)。
從風險看,必然會出現(xiàn)風險,數(shù)據(jù)是資產(chǎn),資產(chǎn)是數(shù)據(jù)。人類的財富正在虛擬化,正在數(shù)據(jù)化,意味著風險正在由物理世界、現(xiàn)實世界遷移到虛擬世界、數(shù)據(jù)世界。哪里有風險,哪里就有保險。中國信通院聯(lián)合中國人保推出云計算保險已經(jīng)有四年的時間,希望與業(yè)界一起研究如何為數(shù)據(jù)買保險,如何通過金融手段解決數(shù)據(jù)面臨風險問題。
從理想看,萬物皆數(shù)據(jù),數(shù)據(jù)皆兄弟,我們需要連接。單個的孤島數(shù)據(jù)價值不大,我們必須搞流通。我們是連接的時代,流通產(chǎn)生新的價值。現(xiàn)在不是單體重要,而是單體與別人之間的連接更加重要。數(shù)據(jù)的價值不取決于數(shù)據(jù)本身是什么,而取決于數(shù)據(jù)跟其它數(shù)據(jù)之間的關(guān)系是什么,位置是什么,在數(shù)據(jù)世界處于什么位置。連接比數(shù)據(jù)本身更重要,我們一定會連接起來。搞開放、共享的核心目的只有一個,讓數(shù)據(jù)連接流通是長期的目標。
以后,數(shù)據(jù)會去往何方?
我們正在迎來摩爾定律老去的時代,摩爾定律減速的時候會對整個行業(yè)帶來翻天覆地的變化,所以需要改變傳統(tǒng)思維方式。以前覺得計算資源很便宜,浪費點沒什么,今天的計算資源越來越貴,因為摩爾定律減速。以前行業(yè)的增速非常穩(wěn)定,有節(jié)奏感,因為有摩爾定律什么也不干也能穩(wěn)定地讓你增長。今天當摩爾定律減速甚至停緩的時候,行業(yè)當然會往前走,但不能僅僅依靠摩爾定律,要依靠軟件,需要更新軟件的結(jié)構(gòu)。最近看到很多新的軟件架構(gòu)出現(xiàn)的原因之一,就是底層計算資源不再符合摩爾定律增長速度,所以要創(chuàng)新軟件與架構(gòu)的設(shè)計。
改進算法。以前不太關(guān)心算法的改進,因為算法改進付出的成本可能比摩爾定律芯片更高。與其改進算法,不如再買芯片。今天必須改進算法,因為底下的計算資源越來越貴。算法優(yōu)化成為未來幾年非常重要的發(fā)展方向,包括大數(shù)據(jù)處理。因為底層資源再浪費不起。
硬件。以前通用硬件非常廣泛,越通用價格越低,缺點是越通用的性能越差。硬件性能上不去只好優(yōu)化硬件,而不再是通用的硬件。面向數(shù)據(jù)的軟硬件結(jié)合是重要的發(fā)展方向。
當大數(shù)據(jù)遇到區(qū)塊鏈,兩者都是用來處理數(shù)據(jù),一個是希望擴展數(shù)據(jù)的內(nèi)心,結(jié)構(gòu)化擴展到更多的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)以前做信息,現(xiàn)在做價值,海量數(shù)據(jù)提高計算性能。區(qū)塊鏈針對關(guān)鍵數(shù)據(jù),主要核心目的是為了防篡改,也有計算模式。把一件事分給多個人做,區(qū)塊鏈希望多個人重復(fù)做一件事情,有利于防篡改。一個用服務(wù)器積存,一個是用P2P網(wǎng)絡(luò),一個數(shù)據(jù)是信息,一個數(shù)據(jù)是價值。大數(shù)據(jù)處理需要給做大數(shù)據(jù)的人發(fā)工資,因為激勵是外部的。區(qū)塊鏈發(fā)幣的時候可以內(nèi)置,而不是通過外部的數(shù)據(jù)。大數(shù)據(jù)宣傳的口號是相信數(shù)據(jù),區(qū)塊鏈的口號是相信數(shù)學。
大數(shù)據(jù)遇到人工智能。大數(shù)據(jù)做數(shù)據(jù)的可視化,是因為計算機把數(shù)據(jù)看明白了,可是人看不明白。計算機視覺,是因為人看明白了,但機器看不明白。一個往左一個往右,前幾年宣揚大數(shù)據(jù)主張關(guān)聯(lián)關(guān)系而不是因果關(guān)系,要回到愚昧的原始社會。機器學習能證明數(shù)據(jù)之間有關(guān)聯(lián),但機器學習為什么出現(xiàn)這樣的結(jié)果無法解釋。證明存在關(guān)聯(lián)關(guān)系,但無法解釋為什么有因果關(guān)系。
當忘記成為例外,被機器忘記也是一種幸福。發(fā)明很多技術(shù),核心目的就是記住,因為人的記性太差。你忘了黑客沒有忘記,數(shù)據(jù)很久遠,一上永流傳。以前只關(guān)注如何記住問題,現(xiàn)在關(guān)注如何永久性地消滅數(shù)據(jù)是工程師新的發(fā)展機會。
我們做很多數(shù)據(jù),只關(guān)心數(shù)據(jù)從哪里來的,用完了以后數(shù)據(jù)去了哪里?大數(shù)據(jù)基本“進冷宮”,用完了就完了,80%的數(shù)據(jù)3個月以后無人理睬。GDPR隱私數(shù)據(jù)“要滅絕”,區(qū)塊鏈數(shù)據(jù)價值“得永生”,因為是為了防篡改,數(shù)據(jù)世界的價值越高壽命越長。有的數(shù)據(jù)會莫名其妙地消失,不知道去哪里,因為介質(zhì)的壽命很短。磁盤一般也就是幾十年的壽命,今天存儲的數(shù)據(jù)千年以后的人怎么找到,如何打開word文檔。他們?nèi)ツ睦锟脊胚@代人所謂的大數(shù)據(jù),到哪里發(fā)現(xiàn)?
(原標題:大數(shù)據(jù)正在遭遇成長的煩惱)