最近接連溫習(xí)了幾本數(shù)據(jù)相關(guān)的書,作為數(shù)學(xué)系畢業(yè)的學(xué)生,雖然畢業(yè)多年都無(wú)緣從事數(shù)據(jù)相關(guān)的職業(yè),基礎(chǔ)的理論知識(shí)也基本化整為零,但我對(duì)數(shù)據(jù)一直都蠻感興趣的,在此也想分享下我的一些看法。
一家公司宣布3003人持有該公司的股份,每人平均持有660股。
乍一看,優(yōu)秀優(yōu)秀。
別急著鼓掌,這個(gè)令人驚嘆的數(shù)據(jù)背后還有另一信息沒(méi)有透露:“公司累計(jì)200萬(wàn)股股票,其中三大股東的股份占了3/4,而剩下的3000人總共持有的股份只占1/4“。
同樣的,之前民間盛傳的騰訊人均月薪7.18萬(wàn),看起來(lái)是否也頗為可疑?
首先,這數(shù)據(jù)精確得讓人吃驚;其次,未加說(shuō)明的平均數(shù)都是耍流氓;最后,即便你做了大樣本調(diào)查,可收入作為敏感信息,免不了參雜虛報(bào)和瞞報(bào)的情況,可信度也要大打折扣。這種話題作為媒體的噱頭聽(tīng)聽(tīng)就好,當(dāng)真了可是要傷心的。
但事實(shí)上,人容易為數(shù)據(jù)癡迷。
學(xué)生的能力不好評(píng)估,但考試成績(jī)和學(xué)位證書可以佐證,于是家長(zhǎng)們爭(zhēng)先恐后地幫孩子報(bào)了補(bǔ)習(xí)班;了解一個(gè)陌生人很難,但朋友圈和Facebook提供了一個(gè)渠道,于是我們都執(zhí)著于在網(wǎng)上塑造一個(gè)理想人設(shè)。
看吧,我們一直置身于大數(shù)據(jù)的熱潮中。
我的大學(xué)朋友基本上都在從事大數(shù)據(jù)計(jì)算相關(guān)的職業(yè),平常我們閑聊時(shí),或多或少會(huì)感嘆大數(shù)據(jù)給我們帶來(lái)的雙刃劍。在充斥數(shù)據(jù)和算法的年代,究竟是數(shù)據(jù)為我,還是我為數(shù)據(jù)?數(shù)據(jù)是不是就等于我們自己?這個(gè)命題太大,我只能隨波逐流。
今天主要是想認(rèn)真探討下,這么多年來(lái),你我曾經(jīng)陷入的數(shù)據(jù)陷阱以及我們能采取的行動(dòng)。
一、數(shù)據(jù)會(huì)說(shuō)謊?
大數(shù)據(jù)是個(gè)好工具,尤其到了現(xiàn)在,它早已被放大了光環(huán),給我們帶來(lái)了諸多便利。你瀏覽過(guò)什么,對(duì)什么感興趣,推薦算法總是能精準(zhǔn)地匹配你的口味(或者說(shuō),大數(shù)據(jù)定義了你的口味)。
當(dāng)然,唱衰大數(shù)據(jù)的人也不少:“數(shù)據(jù)只是證實(shí)了顯而易見(jiàn)的事實(shí)。”不少人對(duì)此不屑一顧。
然而,我最近看到的幾個(gè)案例,都不止一次地讓我啼笑皆非:數(shù)據(jù)一次又一次地證明了很多我們想當(dāng)然的推測(cè)跟真實(shí)是不相符的。
你可能會(huì)認(rèn)為,在暴力電影放映后的當(dāng)天,那些有攻擊性的年輕人會(huì)更易怒,犯罪率鐵定會(huì)上升。但事實(shí)上,有經(jīng)濟(jì)學(xué)家通過(guò)數(shù)據(jù)分析,在電影結(jié)束后到次日的凌晨,犯罪率持續(xù)在下降。一方面暴力電影讓潛在的暴力人群離開(kāi)了街頭,另一方面由于影院幾乎不供應(yīng)酒類飲品,減少了酒精有關(guān)的犯罪活動(dòng)。
大數(shù)據(jù)為人我們提供了一個(gè)新維度的視角,覆蓋面較單一的意會(huì)更廣,讓我們對(duì)世界的認(rèn)知也更立體了。
也正是因?yàn)槿绱耍以诳匆恍┱{(diào)研報(bào)告的時(shí)候發(fā)現(xiàn),這把雙刃劍的另一面,終于還是現(xiàn)出了他的真面目。
1、相關(guān)性而非因果性
大數(shù)據(jù)顯示,某地某時(shí)段起飛了多少只白天鵝,據(jù)此推斷天鵝都是白的。
這顯然太扯了,但你敢拍著胸脯保證自己沒(méi)掉過(guò)這類圈套嗎?
甚至有些時(shí)候,如果我們無(wú)法證明自己想要證明的東西,下意識(shí)地就會(huì)展示一些其他東西,并假裝他們是一樣的。畢竟現(xiàn)在統(tǒng)計(jì)數(shù)據(jù)讓人目不暇接,幾乎沒(méi)人會(huì)察覺(jué)到其中的差別,不是嗎?
說(shuō)到這我也不得不反思,我難道沒(méi)有過(guò)嗎?掀開(kāi)這層遮羞布,坦白說(shuō),不少情況下當(dāng)我試圖爭(zhēng)取更多的權(quán)益和話語(yǔ)權(quán)時(shí),不自覺(jué)地也使了這樣的把戲。
運(yùn)用“看似相關(guān)的數(shù)據(jù)”作為論據(jù),要么是無(wú)心之失,要么就是慣用伎倆。
學(xué)生時(shí)代當(dāng)我還對(duì)數(shù)學(xué)建模競(jìng)賽上心時(shí),考題要求預(yù)測(cè)一個(gè)數(shù)值變化趨勢(shì),我當(dāng)時(shí)就默默發(fā)現(xiàn)了一個(gè)“秘密”,即:給你一組數(shù)據(jù),你可以使用任一種范式去找到一個(gè)看似好使的指標(biāo),但換一組數(shù)據(jù),這個(gè)指標(biāo)就失靈了。變量太多,你能試驗(yàn)的樣本太少,于是你很容易發(fā)現(xiàn)這種假相關(guān)性,更別提你想基于這個(gè)相關(guān)性去推導(dǎo)因果性了。
退一步來(lái)說(shuō),即便我們通過(guò)一個(gè)人平常訪問(wèn)網(wǎng)站的內(nèi)容,監(jiān)察到他有了犯罪的沖動(dòng),那到底是抓他還是不抓他?如果我們不能保證自己是正義的,那么我們也不會(huì)在意自己是否邪惡。
有些人很擅長(zhǎng)利用現(xiàn)有數(shù)據(jù)去預(yù)估接下來(lái)的數(shù)據(jù)變化,可能是多維度的觀察,也可能是有了足夠的數(shù)據(jù)樣本。但是,數(shù)據(jù)會(huì)變,我們會(huì)變,如果你迷信數(shù)據(jù)而忽視本質(zhì),那么大數(shù)據(jù)就不能用于預(yù)測(cè),只能預(yù)測(cè)有意會(huì)的預(yù)測(cè)。
重申一遍,大數(shù)據(jù)只能提供相關(guān)性,而非因果性。具有純粹因果關(guān)系的事情很少,因?yàn)楝F(xiàn)在事物間的聯(lián)系變得越來(lái)越復(fù)雜,影響因素有很多。真正的數(shù)據(jù)是工具,而非結(jié)論或原因。
2、數(shù)據(jù)太“薄”
人們總會(huì)錯(cuò)誤地認(rèn)為無(wú)論樣本數(shù)量多么少,都能反映種族的特征。
我在讀達(dá)萊爾·哈夫的《統(tǒng)計(jì)數(shù)據(jù)會(huì)說(shuō)謊》時(shí),書中提到一個(gè)經(jīng)典的醫(yī)療實(shí)驗(yàn):
一個(gè)地區(qū)的450名兒童注射了小兒麻痹癥疫苗,另有680名兒童作為對(duì)照沒(méi)有接受注射。不久之后,該地區(qū)出現(xiàn)了傳染病。注射過(guò)疫苗的兒童中沒(méi)有一個(gè)患上小兒麻痹癥。
看到這,你可能要給出小兒麻痹疫苗的有效性的結(jié)論了。
但,這個(gè)實(shí)驗(yàn)還有后續(xù)。事實(shí)上,對(duì)照組中也沒(méi)有兒童患病!
縱觀小兒麻痹癥的發(fā)病率,本來(lái)就比較低,這么大規(guī)模的群體中只可能出現(xiàn)兩例患病者。因此,從一開(kāi)始這個(gè)實(shí)驗(yàn)就注定毫無(wú)意義。如果想獲得任何有意義的結(jié)論,實(shí)驗(yàn)組需要用比這個(gè)群體多15~20倍的兒童做樣本。
事實(shí)上,我們現(xiàn)在看到的很多市場(chǎng)調(diào)研報(bào)告,里面不乏通過(guò)小樣本去給出均值結(jié)論的例子,比如我前兩天看的90后消費(fèi)人群分析:
“84%的90后有理財(cái)習(xí)慣“;
“34%的90后已購(gòu)房“;
“60%以上的90后將消費(fèi)貸用于基本生活和休閑“……
然后我翻了下數(shù)據(jù)來(lái)源,樣本是5000人,挺多的是不是?而90后據(jù)最新數(shù)據(jù)研究已有3.62億……
只有試驗(yàn)的樣本數(shù)目足夠龐大,平均數(shù)定律才是一個(gè)有用的描述或猜測(cè)。
二、看穿數(shù)據(jù)的真相
如果說(shuō)前文展現(xiàn)的是目前普遍存在的數(shù)據(jù)行騙手段,那么接下來(lái)我們一起來(lái)試著看下如何去看穿數(shù)據(jù)的真相,避免被一些似是而非的東西所迷惑。畢竟“騙子”都已經(jīng)熟練掌握了這些詭計(jì),老實(shí)人又怎能不學(xué)點(diǎn)防御之術(shù)呢?
《統(tǒng)計(jì)數(shù)據(jù)會(huì)說(shuō)謊》里給我提供了一個(gè)很好的思路,下次當(dāng)我們接觸到一些數(shù)據(jù)時(shí),不妨提出4個(gè)問(wèn)題試試:
1、是誰(shuí)這么說(shuō),他怎么知道?
這個(gè)結(jié)論怎么來(lái)的?找到有意識(shí)和無(wú)意識(shí)的偏差。
比如你在機(jī)場(chǎng)分發(fā)消費(fèi)問(wèn)卷調(diào)查,那你可能就犯了選擇誤差,因?yàn)樽w機(jī)的人相對(duì)而言比一般人更富裕些,消費(fèi)水平自然會(huì)高一些。
又或者,你發(fā)現(xiàn)某個(gè)屋子里人均身高偏高,然后打開(kāi)門一看,姚明坐那呢。你選擇的樣本里有過(guò)高或過(guò)低的數(shù)據(jù),樣本不平均,就會(huì)出現(xiàn)這類錯(cuò)誤。
當(dāng)然還有一種可能,你為了使自己拿到有利的結(jié)論,選對(duì)自己有利的數(shù)據(jù),改變衡量的標(biāo)準(zhǔn),再使用不恰當(dāng)?shù)臏y(cè)算方式。比如明明是中位數(shù)更能說(shuō)明問(wèn)題,卻使用了均值來(lái)計(jì)算,最后再用“平均數(shù)”來(lái)掩蓋事實(shí)真相。
這些你能想到的伎倆,別人當(dāng)然也能。
2、漏掉了什么?
在我們閱讀分析報(bào)告時(shí),大多數(shù)情況下我們無(wú)法得知樣本中包含了多少案例。能看到的就是一張張繪制完美的圖表,配上鏗鏘有力的結(jié)論,看起來(lái)多么令人信服。
然而,如果缺乏可信的測(cè)算方式,比如概率誤差、標(biāo)準(zhǔn)誤差的檢驗(yàn),那么可信度就要大打折扣了。
尤其要留心那些未加說(shuō)明的平均數(shù),因?yàn)闊o(wú)論在什么時(shí)候,均值和中位數(shù)都有著本質(zhì)的差別。
一份報(bào)告曾指出“過(guò)去25年內(nèi)因癌癥死亡的人數(shù)大幅增長(zhǎng)”,很嚇人對(duì)不對(duì)?
但我們都知道,以前那些“原因不明”的病癥現(xiàn)在都被確診為癌癥,這是其一;此外尸體解剖更加頻繁,診斷也就更為確切;現(xiàn)在人均壽命延長(zhǎng),因此更多人會(huì)活到容易患癌癥的年齡。最后,報(bào)告給出的數(shù)據(jù)應(yīng)該是死亡總?cè)藬?shù)而非死亡率——畢竟現(xiàn)在的人口總數(shù)比以前要多。
3、偷換概念了嗎?
搞亂因果關(guān)系,拿詞義做文章,都是偷換概念的方式。
早在前幾年,人們普遍認(rèn)為女博士的婚育年齡普遍較學(xué)歷較低的女性會(huì)更大,女博士里的剩女比例也更高。后來(lái)“剩女”一詞被人詬病后,現(xiàn)在被冠以“單身貴族”的頭銜,聽(tīng)起來(lái)似乎還蠻前衛(wèi)的?
這算是很明顯的偷換概念了,本質(zhì)上想傳達(dá)的觀點(diǎn)并沒(méi)有變化。而更多時(shí)候,在更為專業(yè)的領(lǐng)域,遇到偷換概念的場(chǎng)合,你我可能并不能一眼識(shí)別。
4、這是否合乎情理?
那么,究竟要怎樣做才能不被毫無(wú)意義的結(jié)論愚弄?你總不能指望每個(gè)人都成為統(tǒng)計(jì)學(xué)家,親自分析數(shù)據(jù)吧?
反其道而行,你要去捕捉?jīng)]有被透露的數(shù)據(jù),留心這部分的數(shù)據(jù),就能看穿這種別有用心的手段。
此外,截止到目前為止的趨勢(shì)或許是事實(shí),但未來(lái)的趨勢(shì)不過(guò)是我們的猜測(cè)。你不能拿現(xiàn)有的趨勢(shì)直接去臆測(cè)未來(lái)的趨勢(shì),畢竟所有的事情不會(huì)一成不變。
比如說(shuō)現(xiàn)在有個(gè)新聞是這么報(bào)道的:在大霧天氣的一周內(nèi),某地區(qū)的死亡人數(shù)猛增至2800人……
仔細(xì)想下,這一周內(nèi)死亡率比平時(shí)高這么多難道不是例外嗎?所有的事情都處在變化之中。往下看,隨后幾周情況如何?死亡率降至平均水平以下,是否意味著大霧中死去的人本來(lái)就已不久于人世?
看吧,這個(gè)數(shù)據(jù)的確讓人印象深刻,但由于沒(méi)有其他數(shù)據(jù)可以對(duì)比,所以這個(gè)數(shù)據(jù)也變得沒(méi)什么意義。
三、數(shù)據(jù)是把雙刃劍
寫這篇文有點(diǎn)殺敵一萬(wàn)自損八千的感覺(jué),前文提到的數(shù)據(jù)陷阱,無(wú)論是假相關(guān)性、亂因果性,還是拿著薄數(shù)據(jù)去佐證對(duì)自己有利的觀點(diǎn),這些我曾經(jīng)陷入的圈套,同樣也在某些時(shí)刻成為了我“行騙“的工具。
究竟要怎么去用數(shù)據(jù)呢?我已許久沒(méi)系統(tǒng)性地做過(guò)數(shù)據(jù)挖掘和統(tǒng)計(jì)分析,但我相信大數(shù)據(jù)廣闊的應(yīng)用前景,也在大數(shù)據(jù)給出的相關(guān)性規(guī)律里獲益匪淺。我也在反思,在數(shù)據(jù)至上的時(shí)代,我是不是過(guò)少地發(fā)現(xiàn)它的局限性,過(guò)分地依賴它給的結(jié)論。
至于那些拿大數(shù)據(jù)用以評(píng)判個(gè)人、組織乃至社會(huì),特別是關(guān)乎人性抉擇、生殺進(jìn)退的大事,我們是否又能接受這些冰冷的數(shù)據(jù)澆滅人情的熱度?
一起拭目以待吧。