當(dāng)今時(shí)代,數(shù)據(jù)已經(jīng)成為我們經(jīng)營業(yè)務(wù)的核心手段。事實(shí)上,據(jù)全球市場情報(bào)公司IDC預(yù)計(jì),到2020年,全球花費(fèi)在數(shù)據(jù)分析項(xiàng)目上的支出將達(dá)到2743億美元。然而,其中的大部分錢并沒有得到合理地利用。據(jù)高德納咨詢公司(Gartner)的分析師尼克•赫爾德克的估算,高達(dá)85%的大數(shù)據(jù)項(xiàng)目是失敗的。
問題的重點(diǎn)在于,出現(xiàn)在電腦屏幕上的數(shù)字具有一種特殊的權(quán)威感。一旦數(shù)據(jù)通過大量的數(shù)據(jù)庫被提取出來,并通過復(fù)雜的分析軟件進(jìn)行分析,我們就幾乎不再會去關(guān)心這些數(shù)據(jù)究竟來自哪里,它們究竟是如何被修正的,更不會去關(guān)心它是否真正適用于我們的研究目標(biāo)了。
因此,實(shí)際上,要想從數(shù)據(jù)中得到有用的答案,我們便不能只看到它表面的數(shù)據(jù)值。我們需要學(xué)會如何提出更加深層的問題。我們尤其需要知道這些數(shù)據(jù)是如何得出的,我們用了什么樣的模型來分析它們,以及在這一分析過程中究竟遺漏了什么。最重要的是,我們需要超越僅僅使用數(shù)據(jù)來優(yōu)化操作程序的做法,并學(xué)會利用數(shù)據(jù)來構(gòu)思新的生產(chǎn)可能性。
我們要問的第一個(gè)問題是:
一、數(shù)據(jù)是如何得出的?
據(jù)說,數(shù)據(jù)一詞是“奇聞軼事”的復(fù)數(shù)形式。英語中有一句俚語,叫“很多奇聞軼事聚在一起就成了數(shù)據(jù)”。的確,真實(shí)世界的各種事件,如交易記錄、診斷結(jié)果和其他諸多相關(guān)信息,都被一一記錄下來,并存儲在大型服務(wù)器之中,這就是數(shù)據(jù)。但幾乎沒人會關(guān)注這些數(shù)據(jù)究竟來自哪里,因此,非常不幸的是,我們收集到的數(shù)據(jù)的質(zhì)量和處理方式可能會有很大差別。事實(shí)的確如此,高德納咨詢公司最近的一項(xiàng)研究揭示出,由于收集到的數(shù)據(jù)質(zhì)量太差,每個(gè)公司平均損失竟然高達(dá)1500萬美元。
一般來說,數(shù)據(jù)的準(zhǔn)確性會受到人為錯(cuò)誤的影響,例如當(dāng)?shù)凸べY和動力不足的零售職員檢查庫存時(shí),他們收集到的數(shù)據(jù)就往往并不準(zhǔn)確。然而,即使數(shù)據(jù)收集過程是自動化的,也仍然會有很多的錯(cuò)誤來源,比如手機(jī)信號塔的間歇性停電就會造成錯(cuò)誤;在金融交易清算過程中運(yùn)用自動化的信息收集方式同樣可能產(chǎn)生錯(cuò)誤。
質(zhì)量過差的數(shù)據(jù)和用于錯(cuò)誤語境的數(shù)據(jù)可能比根本沒有數(shù)據(jù)更為糟糕。事實(shí)上,一項(xiàng)研究發(fā)現(xiàn),65%的零售商庫存數(shù)據(jù)是不準(zhǔn)確的。而自歐盟通過并發(fā)行了嚴(yán)格的GDPR(通用數(shù)據(jù)保護(hù)條例)數(shù)據(jù)標(biāo)準(zhǔn)以來,另一個(gè)日益重要的問題逐漸浮現(xiàn):在收集數(shù)據(jù)時(shí)是否得到當(dāng)事人適當(dāng)?shù)耐狻?/p>
因此,不要簡單地認(rèn)為你所擁有的數(shù)據(jù)是準(zhǔn)確的和高質(zhì)量的。你首先必須關(guān)心它是從哪里得來的,以及它是如何維護(hù)的。我們越來越需要像做金融交易一樣,小心謹(jǐn)慎地審查我們的數(shù)據(jù)處理方式。
二、數(shù)據(jù)是如何分析的?
即使數(shù)據(jù)得到了準(zhǔn)確和良好的維護(hù),數(shù)據(jù)分析模型的質(zhì)量也會有很大差異。一般而言,各種數(shù)據(jù)分析模型是通過開源平臺(如GitHub)組合在一起,并要為特定的分析任務(wù)進(jìn)行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關(guān)心它究竟是如何評估特定的數(shù)據(jù)集合的了。
類似于這樣的失誤要比你所能想象到的更為常見,并且有可能造成嚴(yán)重的損失。我們可以回顧一下如下案例:曾經(jīng)有兩位著名的經(jīng)濟(jì)學(xué)家發(fā)表了一份工作報(bào)告,警告說美國債務(wù)即將面臨一個(gè)關(guān)鍵的節(jié)點(diǎn)。他們的工作引發(fā)了一場政治風(fēng)暴,但事實(shí)證明,他們犯了一個(gè)簡單的Excel錯(cuò)誤,導(dǎo)致他們夸大了債務(wù)對GDP的影響。這就是對數(shù)據(jù)處理方式的失誤造成的。
隨著數(shù)據(jù)處理模型變得越來越復(fù)雜,并納入了更多的數(shù)據(jù)來源,我們也越來越能看到,在數(shù)據(jù)模型的訓(xùn)練上不斷出現(xiàn)更為嚴(yán)重的問題。最常見的錯(cuò)誤之一是過度擬合,這大體意味著,用來創(chuàng)建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數(shù)據(jù)會導(dǎo)致數(shù)據(jù)泄漏,在數(shù)據(jù)泄露中,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)攪和在一起了。
這些類型的錯(cuò)誤甚至?xí)_最為先進(jìn)的公司。對此我們僅僅舉出兩個(gè)最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關(guān)的丑聞被高度曝光了。當(dāng)我們處理數(shù)據(jù)時(shí),我們需要不斷地向我們的模型提出難題:它們適合于我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數(shù)據(jù)是否真實(shí)地反映現(xiàn)實(shí)世界中發(fā)生的事情?
三、數(shù)據(jù)無法告訴我們什么?
數(shù)據(jù)模型,就像人類一樣,它們總是傾向于根據(jù)最可用的信息來做出判斷。但是,有時(shí)你所缺失的數(shù)據(jù)往往會像你所擁有的數(shù)據(jù)一樣影響你的決策。我們通常將這種類型的可用性偏差與人類決策聯(lián)系起來,但人類設(shè)計(jì)者往往將這種偏差傳遞給自動化系統(tǒng)。
例如,在金融業(yè)中,那些擁有大量信貸歷史的人往往比那些沒有信貸歷史的人更容易獲得信貸。后者通常被稱為“瘦檔案”客戶,他們發(fā)現(xiàn)自己很難買車,很難租賃房屋,也很難申請到信用卡。(我們中的一員,一位名叫格雷格的同事,在海外生活15年后回到美國時(shí),就曾親身經(jīng)歷了這個(gè)問題)。
然而,缺少信貸歷史并不必然表明信用風(fēng)險(xiǎn)很高。而信貸公司最終往往僅僅因?yàn)槿狈ο嚓P(guān)數(shù)據(jù)而放棄潛在的盈利客戶。最近,益百利公司開始通過應(yīng)用Boost程序來解決這一難題,該程序通過查詢消費(fèi)者的日常支付活動來使消費(fèi)者獲得信用評分,比如定期的電信充值和公共事業(yè)支付等等。迄今為止,已有數(shù)百萬人在該程序上登記注冊了。
因此,要問一問你的數(shù)據(jù)模型可能遺漏哪些方面,這個(gè)問題是極其重要的。如果你正在管理你所測量的數(shù)據(jù),你就要確保你所測得的數(shù)據(jù)真實(shí)地反映了現(xiàn)實(shí)世界,而不只是一些最容易收集的僵死的數(shù)據(jù)。
四、我們?nèi)绾卫脭?shù)據(jù)重新設(shè)計(jì)產(chǎn)品和商業(yè)模式?
在過去的十年里,我們已經(jīng)了解了數(shù)據(jù)如何幫助我們更有效地管理我們的業(yè)務(wù)。智能化地使用數(shù)據(jù)使我們能夠進(jìn)行自動化處理,預(yù)測我們的機(jī)器何時(shí)需要維護(hù),并且更好地為我們的客戶服務(wù)。正是數(shù)據(jù)使得亞馬遜能夠提供包裹當(dāng)日達(dá)服務(wù)。
數(shù)據(jù)也可以成為產(chǎn)品本身的重要組成部分。我們可以舉一個(gè)著名的例子,Netflix長期以來一直使用智能數(shù)據(jù)分析來花更少的成本創(chuàng)建更好的項(xiàng)目。這使得Netflix在與對手——如迪士尼和華納傳媒——競爭時(shí)獲得了一個(gè)重大的優(yōu)勢。
然而,真正令人振奮的是,你可以用數(shù)據(jù)來完全重新構(gòu)想你的業(yè)務(wù)模式。在Eric工作的益百利公司,他們已經(jīng)能夠利用云技術(shù),從只以信用報(bào)告的形式提供處理過的數(shù)據(jù),轉(zhuǎn)變?yōu)闉榭蛻籼峁?shí)時(shí)訪問報(bào)告所依據(jù)的更細(xì)粒度數(shù)據(jù)的服務(wù)。這看似是一個(gè)微不足道的轉(zhuǎn)變,但它已經(jīng)成為益百利公司業(yè)務(wù)增長最快的部分之一。
有人說數(shù)據(jù)是新的石油,但實(shí)際上,數(shù)據(jù)要比石油更有價(jià)值?,F(xiàn)在,我們必須開始轉(zhuǎn)變觀念,不能僅僅將數(shù)據(jù)視作一種被動的資產(chǎn)類別。如果使用得當(dāng),數(shù)據(jù)甚至能夠提供一種真實(shí)的競爭優(yōu)勢,并產(chǎn)生一種全新的業(yè)務(wù)方向。然而,要做到這一點(diǎn),你不能僅僅從尋找答案開始。你必須學(xué)會如何提出新的問題。