前言
本文主要圍繞移動互聯(lián)網(wǎng)提供商擁有的大量用戶時空數(shù)據(jù),討論能否通過這些足跡來預(yù)測用戶線下的行為,甚至是一個城市的發(fā)展。
3個故事
1、Google Flu
第一個故事是谷歌流感,又叫Google Flu。Google Flu是谷歌在2008年的時候做的一個工作,在學(xué)術(shù)界和業(yè)界都引起了極大的影響。大家突然發(fā)現(xiàn),一個互聯(lián)網(wǎng)公司竟然開始介入流行病與地區(qū)發(fā)展相關(guān)的研究,而且文章作者,除了一位貢獻了調(diào)查數(shù)據(jù)之外,全都是谷歌的計算機科學(xué)家,沒有任何的傳染病研究或者城市研究的背景。這樣的一篇Nature文章,沒有任何的“公式”。他們是怎么做到的呢?為什么會引起很多的質(zhì)疑和爭端?
是這樣的,大家都用谷歌或者百度的檢索,這種搜索數(shù)據(jù)稱為Query,于是他們將大概5000萬條最主要的搜索數(shù)據(jù)一個一個和流感爆發(fā)的數(shù)據(jù)做了相關(guān)性分析,篩出高度相關(guān)的關(guān)鍵詞。把主要的關(guān)鍵詞篩出來以后,再把它進行各種組合,如下圖所示,y軸代表準確率,x軸是Query數(shù)量,當(dāng)組合到45個詞的時候,準確率是最高的,但并不知道為什么。于是他們便認為,這45個關(guān)鍵詞能夠預(yù)測一個地區(qū)的流感的發(fā)病趨勢,而且用這種方式可以做到州級別的精度,每個州可以一個很好的預(yù)測。
下圖是預(yù)測和實際結(jié)果的比較,黑色的曲線代表預(yù)測值,紅色曲線代表實際值,他們的預(yù)測能夠比實際的早一到兩周。這在當(dāng)時引起了很大的轟動,這篇文章也被廣泛引用,但這也埋下了爭論的伏筆。谷歌2008年做的流感研究,被認為是用互聯(lián)網(wǎng)和大數(shù)據(jù)做地區(qū)傳染病的研究先驅(qū)。
2、Google Unemployment
緊接著2008年Google Flu的工作,2009年谷歌發(fā)了一篇內(nèi)部的技術(shù)報告,講述了他們用搜索來看美國的失業(yè)率。如下圖所示,黑色曲線代表美國的調(diào)查失業(yè)率,紅色曲線代表谷歌搜索與失業(yè)相關(guān)的詞頻變化,經(jīng)過一個簡單的時間序列回歸以及季節(jié)性調(diào)整之后,他們發(fā)現(xiàn)兩者之間有非常好的相關(guān)性。
所以谷歌認為,檢索詞不光能預(yù)測流感,也能預(yù)測地方經(jīng)濟的活力。而且不僅是宏觀經(jīng)濟,檢索還可以預(yù)測一些微觀經(jīng)濟的情況,例如預(yù)測一個汽車的銷量,給公司提供商業(yè)咨詢。下面這張圖代表的是谷歌預(yù)測的汽車的銷量,黑色的線是官方的統(tǒng)計數(shù)據(jù)。但是他們在文章里面特別強調(diào)的一點是谷歌預(yù)測當(dāng)下,從來不強調(diào)預(yù)測未來。
3、Google Culture
提到谷歌在經(jīng)濟領(lǐng)域的研究就不得不介紹谷歌的首席經(jīng)濟學(xué)家Hal Varian。Hal Varian在經(jīng)濟學(xué)界是一個先鋒性人物,他最早關(guān)注了信息經(jīng)濟學(xué)以及網(wǎng)絡(luò)經(jīng)濟學(xué),寫過一本名叫Information rules: a strategic guide to the network economy的重要著作。
Hal Varian2007年全職加入谷歌任首席經(jīng)濟學(xué)家,但早在2002開始就參與谷歌的很多研究與決策,通過經(jīng)濟手段優(yōu)化拍賣機制,改善了谷歌的競價排名。也在谷歌做過一些計量經(jīng)濟學(xué)的分析,包括公司的戰(zhàn)略合作,還有公共政策。
谷歌做的很多工作看上去并不能夠給谷歌帶來商業(yè)上的直接收入,比如說流感預(yù)測、宏觀經(jīng)濟預(yù)測,但是卻在公眾形象和政府關(guān)系產(chǎn)生了重要影響。
2011年,谷歌開始進行圖書計劃,基于所有電子化書籍整理成一個數(shù)據(jù)庫,并開發(fā)一套算法,用以統(tǒng)計歷史長河中詞頻的變化。谷歌圖書計劃在當(dāng)時(2011年)一共電子化了500多萬本書,約占人類全部出版物的4%。他們做了大量的工作,但文章寫得很輕松,以圖為主,我們可以來看一下他們的工作。
他們認為歷史的演變會體現(xiàn)在出版物詞頻的變化上,通過一些關(guān)鍵詞可以看出這種趨勢。他們認為書籍中的詞頻能成功反映三次大流感的爆發(fā),還有世界政治格局的演變,像所謂的南北問題,有神論和無神論。包括男性和女性這兩個詞,男性的詞頻在下降,女性在上升,這對應(yīng)了女權(quán)主義的崛起。通過這種方式可以很好地刻畫歷史長河中文化的演變。
下圖是董老師(講課老師)當(dāng)時用谷歌的數(shù)據(jù)做的紐約、倫敦、巴黎和羅馬四個城市200年間詞頻的變化圖,可以看一個城市的興衰和演變。可以看到,很明顯的現(xiàn)象是羅馬從1800年開始慢慢地衰落,這與大家的認知吻合,羅馬在世界經(jīng)濟和文化中的地位正在減弱;巴黎不怎么變,還是比較穩(wěn)定;但是這里面有兩個在躍升的,一個是倫敦是穩(wěn)步上升,而紐約有了大幅度地飛躍,這與整個經(jīng)濟和文化的中心從歐洲往美國轉(zhuǎn)移有很大關(guān)系。
圖上有兩條灰色的線,對應(yīng)的是紐約的高峰,歐洲城市的低谷,這其實是因為在兩次世界大戰(zhàn)期間,歐洲是主戰(zhàn)場,戰(zhàn)爭摧毀了大量的城市,一下子跌入一個谷底,而美國那時候開始崛起。
4個特征
以上的三個故事,有這么四個特征,這些特征也是所有這一類研究的特點,同時也是很多人批判他們的原因。
1、只關(guān)注詞頻(Query)在時間序列上的變化;
2、有些帶有的空間位置(不同區(qū)域的流感,不同地區(qū)的失業(yè)率);
3、預(yù)測當(dāng)下,而非未來;
4、需要基于調(diào)查數(shù)據(jù)(Survey data)驗證。
所以有很多人認為,大數(shù)據(jù)其實并沒有發(fā)揮它的優(yōu)勢,只不過是做實了我們之前的一些研究而已。還有的人認為,其實數(shù)據(jù)粒度還可以做到很細,但是谷歌并沒有做到。
我之前也這樣認為,但是后來我在業(yè)界實習(xí)之后才發(fā)現(xiàn),并不是谷歌做不到,事實上很可能他們已經(jīng)做了,但并不會公開地對學(xué)術(shù)界或公眾去講,因為這會牽涉到個人的隱私。比如說每個人有一個ID,谷歌檢測到他是不是檢索過流感或者疾病爆發(fā)的關(guān)鍵詞,這樣可以很精準地刻畫一個人的行為,但如果把這些數(shù)據(jù)公布出去,是一個非常敏感的事情。
批判
1、學(xué)界批判
對于“大”數(shù)據(jù),大家可能多多少少都聽過來自各方面的批判,但其中比較重要的是2014年Science的一篇文章TheParable of Google Flu: Traps in Big Data Analysis,四個作者都是相關(guān)領(lǐng)域最資深的學(xué)者,他們的批判在某種程度上也可以認為是學(xué)術(shù)界和工業(yè)界的大戰(zhàn)。
這幾位學(xué)者發(fā)現(xiàn),Google Flu總是高估流感的實際情況,2011-2012這兩年里,Google Flu在108周里有100周是高估的。如果這只是一個質(zhì)疑的話那還好說,他們提出了一個更尖銳的質(zhì)疑。如果只用調(diào)查數(shù)據(jù)(CDC有關(guān)于流感的調(diào)查)做一個滯后兩期的模型,來進行預(yù)測,這個模型的結(jié)果比谷歌還要準。如下圖所示。
Google Flu與CDC的比較,Lagged CDC比Google Flu效果更好 (參考文獻[7])
后來這幾位學(xué)者就針對大數(shù)據(jù)的研究提了幾個原則:
1、透明性和可重復(fù)性;
2、理解未知而非已知;
3、調(diào)查方法穩(wěn)定性和一致性。
2、個人看法
(1)相關(guān)性和因果性問題
比如我們觀測到一個地區(qū)如果其警察數(shù)量多,往往犯罪率也高。但是我們并不能因此得出一個結(jié)論:警察導(dǎo)致犯罪。再比如我們觀測到一個地區(qū)消防員數(shù)量越多,森林火災(zāi)越多,但也是不能說是消防員導(dǎo)致了火災(zāi)。
但是我覺得在數(shù)據(jù)時代其實是更加好去解釋這個問題,因為傳統(tǒng)經(jīng)濟學(xué)方法都是在找試驗,無論是工具變量法還是雙重差分,都想構(gòu)造出一個實驗組、一個對照組,看看它們的區(qū)別。但是在很多數(shù)據(jù)驅(qū)動的公司里面,這已經(jīng)是一個非常容易而且非?,F(xiàn)實的工作,比如說現(xiàn)在很多互聯(lián)網(wǎng)公司做的都是灰度發(fā)布,每次發(fā)布產(chǎn)品的時候,不是推給我的全部用戶。
我會給A類用戶推這種版本,我給B類用戶推另一個版本,我看哪個比較受歡迎,最后會選擇受歡迎的那個產(chǎn)品。所以像我們之前做的很多的對于經(jīng)濟、人口、政策的研究,都可以基于這些方式去做實驗。如果你有比較好的實驗和設(shè)計的話,就可以比較容易去解決因果和相關(guān)的問題。在數(shù)據(jù)時代是更容易去做這些試驗的。
(2)樣本的偏差問題
關(guān)于樣本的偏差問題,這也是很多人質(zhì)疑的。比如在研究一個問題時,谷歌就只有谷歌的用戶,百度就只有百度的用戶,微博就只有微博的用戶,這就是一個樣本選擇偏差。其實這背后有兩個問題:一個是研究的問題是什么?如果問題本身可以通過這個樣本涵蓋,那這并不構(gòu)成問題。第二個可以結(jié)合一些調(diào)查數(shù)據(jù)對于“大”數(shù)據(jù)進行校準。而且隨著全民移動的互聯(lián)網(wǎng)化、物聯(lián)網(wǎng)化,這種問題肯定是越來越好解決。
今天分享的內(nèi)容是這些,大家還可以思考以下問題,是否能通過大數(shù)據(jù)評估一個地區(qū)(城市)的發(fā)展情況,無論是宏觀經(jīng)濟、人口的、政策的;這種數(shù)據(jù)源與傳統(tǒng)的統(tǒng)計調(diào)查經(jīng)濟普查、人口普查,以及對傳染病的調(diào)查究竟有什么不同,應(yīng)該如何使用?大數(shù)據(jù)的邊界在哪里?
參考文獻
1. Ginsberg,J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., &Brilliant, L. (2009). Detecting influenza epidemics using search engine querydata. Nature, 457(7232), 1012-1014.2. Choi,H., & Varian, H. (2009). Predicting initial claims for unemploymentbenefits. Google Inc, 1-5.3. Choi,H., & Varian, H. (2012). 8Predicting the present with google trends.Economic Record, 8(s1), 2-9.4. Michel,J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Pickett, J. P., ...& Aiden, E. L. (2011). Quantitative analysis of culture using millions ofdigitized books. science, 331(6014), 176-182.5. Lazer,D., Kennedy, R., King, G., &Vespignani, A. (2014). The parable of GoogleFlu: traps in big data analysis. Science, 343(14 March).