互聯(lián)網(wǎng)時(shí)代最了解我們的非“大數(shù)據(jù)”莫屬。淘寶和天貓知道你喜歡什么風(fēng)格的服飾,滴滴知道你們每天上班和回家的路程,酷我知道你深夜聽的最多的是哪首歌……這一切背后的操盤者就是“大數(shù)據(jù)”,互聯(lián)網(wǎng)時(shí)代“大數(shù)據(jù)”似乎比你自己更要了解自己。
一個(gè)安卓App開發(fā)者曾經(jīng)試圖跟女朋友解釋自己近乎無所不能的工作:在App安裝后,他能夠獲得大量授權(quán),推斷數(shù)據(jù)里的人群做什么工作、常去哪里、畢業(yè)于什么學(xué)校、有什么愛好、有沒有結(jié)婚、有沒有外遇、有沒有房、有沒有車、現(xiàn)在是外出度假還是在家待著,甚至通過讀取銀行通知短信,推測(cè)實(shí)際收入。有時(shí)候?yàn)榱丝蛻粜枰?,他還得推測(cè)人心,排除偽君子,比如如果手機(jī)里下載高端財(cái)經(jīng)App,打開頻率卻幾乎為零,那么這個(gè)人的標(biāo)簽要么是不小心下錯(cuò)了軟件,要么就是‘比較裝’??
北京城里有許多故事不為人所知,一個(gè)最容易被人忽視的真相是,在這里,總有人比你更了解自己。周一早高峰時(shí)間擠在地鐵里刷財(cái)經(jīng)新聞的一些人,會(huì)在周五下班路上收到系統(tǒng)為他們推送的八卦新聞,因?yàn)樗惴ㄖ肋@是他們此刻最想看到的內(nèi)容。做人臉識(shí)別的公司知道我們每天晚上什么時(shí)間卸妝,什么時(shí)候敷面膜,周末早上賴床到幾點(diǎn),因?yàn)樵谶@些時(shí)候,人臉識(shí)別通過率會(huì)驟然變低。
在真實(shí)世界里,性別只分男和女,但是原阿里巴巴集團(tuán)副總裁車品覺說,阿里巴巴曾經(jīng)就有18個(gè)性別標(biāo)簽,它知道有些賬號(hào)白天是男性用戶持有,而晚上使用的卻是女性。判斷依據(jù)是用戶資料、瀏覽商品類目、對(duì)話使用稱謂,以及那些我們自己或許都未曾察覺的訪問習(xí)慣——點(diǎn)擊屏幕的輕重,經(jīng)常輸錯(cuò)的錯(cuò)別字,在瀏覽器窗口是喜歡在新窗口打開、還是反復(fù)使用前進(jìn)后退鍵,正是它們告訴機(jī)器,此刻對(duì)著屏幕滑動(dòng)商品頁面的究竟是誰。
大數(shù)據(jù)里的我們,擁有異常真實(shí)的群體畫像。因?yàn)槲覀冊(cè)诿鎸?duì)手機(jī)的時(shí)候非常誠實(shí),永遠(yuǎn)對(duì)它說真話。
世界上知道這些秘密的只有你,和機(jī)器另一端的數(shù)據(jù)科學(xué)家。在機(jī)器語言里,我們不止是一個(gè)名字、一個(gè)地址、一串設(shè)備識(shí)別符。它每秒鐘監(jiān)測(cè)超過400個(gè)變量,記錄每一個(gè)行為軌跡。
今年57歲的韋思岸(AndreasWeigend)知道無數(shù)這樣的故事。他出生在德國,原本在赫赫有名的歐洲粒子物理研究所(CERN)研究上帝粒子,但在2002年,他選擇投身大數(shù)據(jù)世界,成為了亞馬遜首席科學(xué)家,后來他曾任阿里巴巴數(shù)據(jù)顧問、人人網(wǎng)早期外部投資人,也曾為摩根大通、湯森路透、沃爾瑪、AT&T等機(jī)構(gòu)提供數(shù)據(jù)咨詢。
他教會(huì)機(jī)器一個(gè)理解人類的方法是:獲知一個(gè)用戶地址后,還要抓取這個(gè)地址周圍5公里內(nèi)的書店分布狀況,因?yàn)檫@決定了用戶有多大概率在亞馬遜買書、會(huì)在什么情況下買書。這條準(zhǔn)則后來被應(yīng)用到了阿里巴巴的數(shù)據(jù)分析實(shí)踐,所以當(dāng)淘寶知道你家5分鐘步行路程內(nèi)有超市的時(shí)候,它就不會(huì)頻繁向你推薦油鹽醬醋,但是它看到你的搜索記錄,獲知你皮膚敏感,而15分鐘路程內(nèi)的商場(chǎng)都沒有你習(xí)慣用的護(hù)膚品,那么,這些商品將會(huì)出現(xiàn)在你的屏幕上。
韋思岸將數(shù)據(jù)分析師每天的工作形容為‘人性實(shí)驗(yàn)’,就像科學(xué)家通過實(shí)驗(yàn)探索物質(zhì)的本質(zhì),數(shù)據(jù)分析師通過程序研究人的行為特征。技術(shù)改變了人的物理概念。定義我們的不僅僅是賬戶和密碼,還有我們的愛好、情緒、行為習(xí)慣。不管我們?cè)诨ヂ?lián)網(wǎng)上如何偽裝,換新的名字、新的頭像,機(jī)器總能輕易識(shí)破。數(shù)據(jù)記錄下的習(xí)慣,是我們的另一個(gè)身份定義。
這些故事讓他興奮,同時(shí)讓他感到不安,韋思岸告訴《人物》,‘我能看到最近十幾年我們的生活因?yàn)榧夹g(shù)發(fā)生了顛覆性變革。但是它真的讓我們變得更自在嗎?我沒有答案。’
在數(shù)據(jù)的世界里,我們面對(duì)手機(jī)的每一個(gè)舉動(dòng),都在成為機(jī)器學(xué)習(xí)的材料,訓(xùn)練人工智能更加理解人性。曾經(jīng)那些高深玄奧的人生命題——我們是誰?好朋友意味著什么?我們將會(huì)選擇什么樣的生活——這些答案都可以從搜索記錄、社交網(wǎng)絡(luò)的聊天記錄和手機(jī)傳感器里找到。
截止2018年第一季度,超過10億人每月使用微信及WeChat,6.17億人在淘寶購物,全國搜索引擎用戶達(dá)6.4億,他們時(shí)刻創(chuàng)造新的海量數(shù)據(jù),也在被勾畫著異常精準(zhǔn)的群體畫像,機(jī)器在一步步接近一張清晰的人性圖景。數(shù)據(jù)是這個(gè)時(shí)代最特別的商品,它的產(chǎn)生幾乎毫無成本,卻造就了無數(shù)科技獨(dú)角獸、日漸強(qiáng)大的上市公司,以及數(shù)以億計(jì)的產(chǎn)業(yè)利益。
大數(shù)據(jù)日漸了解我們,但是很少人知道,我們所做的事情會(huì)讓我們成為廣告主的商品、被人剖析個(gè)性的樣本、掌握我們的一舉一動(dòng),甚至能預(yù)測(cè)我們的未來軌跡。
‘隱私’
不止一位數(shù)據(jù)科學(xué)家確信,隱私已經(jīng)是一件‘算法上不成立’的事件。我們知道自己在分享數(shù)據(jù),但是大部分人并不知道,自己正在分享些什么,更不知道,這種分享將會(huì)意味著什么。
聽一個(gè)分析師講述數(shù)據(jù)挖掘過程,就像是見證了一場(chǎng)懸疑推理,唯獨(dú)這一次,福爾摩斯活在大數(shù)據(jù)里。一切從手機(jī)App安裝軟件中的SDK開始,這是一個(gè)搭載在App中的軟件開發(fā)工具包,其中嵌入了統(tǒng)計(jì)分析工具,實(shí)時(shí)收集用戶信息。當(dāng)然,這是經(jīng)過你授權(quán)同意的,就在你可能從來沒有認(rèn)真讀完的用戶協(xié)議里。
從App下載到手機(jī)那一刻起,揣測(cè)人生的嘗試就開始了。僅僅是安裝過程中所抓取的硬件設(shè)備信息,App已經(jīng)對(duì)你有了一個(gè)大概印象——如果一臺(tái)手機(jī)一個(gè)月內(nèi)有10次連接同一個(gè)星巴克的WIFI,20次連接同一個(gè)定位在寫字樓的公共區(qū)域WIFI,30次連接一個(gè)家庭WIFI,再算上這些WIFI的地理位置,以及WIFI名里的關(guān)鍵詞,那么,一條幾近清晰的生活——工作的路線軌跡,get。
在學(xué)者的論文里,這被形容為一個(gè)‘數(shù)據(jù)失控’的時(shí)代,沒有人能控制自己的數(shù)據(jù),我們的數(shù)據(jù)時(shí)刻被人監(jiān)視。
不過,實(shí)際經(jīng)手?jǐn)?shù)據(jù)的人并沒有這種感覺。人們擔(dān)憂自己的個(gè)人信息泄露,比如姓名、電話、地址。在業(yè)界,工程師給隱私下過一個(gè)最簡單的定義——隱私,就是那些不允許自由流動(dòng)的數(shù)據(jù),比如被法律禁止交易的身份證號(hào)、個(gè)人征信、醫(yī)療記錄,它們只能固定儲(chǔ)存,不允許隨意讀取。事實(shí)上,現(xiàn)在App收集信息也確實(shí)越來越受到限制,比如IOS10以后的系統(tǒng)已經(jīng)禁止讀取許多設(shè)備硬件信息,安卓系統(tǒng)也在逐步限制軟件能夠獲取的用戶信息范圍。
不過對(duì)公司來說,以上這些信息固然重要,但更值錢的是另一些數(shù)據(jù)——你的喜好、興趣、生活方式、行為習(xí)慣——而這些數(shù)據(jù)在很多人的概念里,還不屬于隱私。
‘大數(shù)據(jù)能做很多事情,通過合理分析解釋世界。最好的事是,這些東西完全不觸及隱私。’大河在一家公司的數(shù)據(jù)相關(guān)部門工作,她認(rèn)為,隱私是法律明令禁止收集和交易的身份證號(hào)、手機(jī)號(hào)、戶籍地址等個(gè)人身份信息,而她的工作完美避開了它們。‘剛剛分析的這些畫像,我根本不知道他是誰,我看到的只是設(shè)備。比如我能看到一個(gè)在回龍觀的安卓設(shè)備,早上9點(diǎn)去了望京晚上9點(diǎn)又回來了。他的軌跡我都知道,但是我并不知道他是誰。所以它又能匿名,又很精準(zhǔn)。’
一個(gè)不愿意署名的數(shù)據(jù)工程師說,要說有問題,是那些私下倒賣個(gè)人身份信息的黑市有問題,20塊錢買一個(gè)人的征信報(bào)告,幾百塊錢就能買高凈值人群打包數(shù)據(jù),這些跟社會(huì)信息相關(guān)的是隱私,需要管。但是互聯(lián)網(wǎng)公司收集的都是‘淺層信息’,這沒關(guān)系。
小喬曾經(jīng)在一家以‘大數(shù)據(jù)分析’為主力業(yè)務(wù)的互聯(lián)網(wǎng)公司工作,她的工作就是利用公司通過大數(shù)據(jù)得到的用戶畫像,組織線下營銷活動(dòng)。她說,自己并不那么擔(dān)心習(xí)慣被人察覺,因?yàn)樵谒慕?jīng)歷里,好多都是‘忽悠人用的,又不準(zhǔn),怕什么’?特別是在北上廣,每個(gè)人都那么不一樣,用戶畫像根本行不通,也就在三四線城市,弄個(gè)噱頭忽悠一下人。
‘(我們)什么信息都能得到,但是沒什么用,也懶得看。’一個(gè)不愿署名的程序員這樣說,‘互聯(lián)網(wǎng)公司讓你感到害怕,只是因?yàn)槟阍贏pp里,沒有掩飾你是什么樣的人,而App把這些看在眼里——你不會(huì)出柜,但會(huì)偷偷在淘寶上搜索潤滑劑;你不會(huì)跟人說葷段子,但App上看到翹臀美女還是會(huì)點(diǎn)進(jìn)去;你對(duì)外痛擊侵犯版權(quán),但看到四位數(shù)價(jià)格的正版軟件,還是去搜了盜版的下載??’
實(shí)實(shí)在在的人民幣
對(duì)于掌握海量用戶數(shù)據(jù)的大公司,真實(shí)的人性畫像等于錢,因?yàn)樗麄兡苷业椒浅>珳?zhǔn)的目標(biāo)用戶,比如商家想要賣一款針對(duì)5歲以下孩子的推車,他們就可以提供‘家里有5歲以下孩子、訂單中卻未發(fā)生過此類母嬰商品購買行為’的用戶群。他們將海量用戶喜好、興趣、習(xí)慣等數(shù)據(jù)組建成數(shù)據(jù)庫,這樣向品牌商和廣告主推銷:這些消費(fèi)者數(shù)據(jù)也是一種資產(chǎn),你知道他們習(xí)慣買什么、什么時(shí)候想買,它能如預(yù)知未來一樣,直觀看到未來可能收割的營業(yè)額,不是某種估計(jì)的指標(biāo)或指數(shù),而是‘實(shí)實(shí)在在的人民幣’。
這大概是廣告主最喜歡的時(shí)代。Facebook曾推出一項(xiàng)行之有效的算法lookalike。比方說,一家公司想賣啤酒,它只需要提供100個(gè)曾經(jīng)購買過這款酒的用戶群體,數(shù)據(jù)會(huì)將它們視為種子用戶,尋找和種子用戶相似的另外500個(gè)人。他們有相似的興趣愛好,相似的行為習(xí)慣,他們可能并沒有買過啤酒,但是基于他們的行為特征相似性,該相似群體極有可能在推送后馬上得到轉(zhuǎn)化,買下這款啤酒。
并非所有人都對(duì)這些‘隱私’的開放無感。武山在一家行業(yè)排名很高的互聯(lián)網(wǎng)公司工作,利用大數(shù)據(jù)進(jìn)行算法推薦。每天在工作的時(shí)候,他能夠看到全體用戶在App上的行為軌跡信息,包括電話、地址、搜索記錄、每一屏交互行為等等。這是他的工作內(nèi)容,可是他說,這也讓他不安。
‘雖然都說數(shù)據(jù)開放、數(shù)據(jù)開放,但還是覺得,這些數(shù)據(jù)真是太開放了,沒有做好保護(hù)?。”热鐑?nèi)部員工可以查到用戶在App上的行為習(xí)慣啊,還有App收集用戶信息的時(shí)候,哪些該收集,哪些不該收集,在我看來也算隱私啊,應(yīng)該有一些機(jī)制保護(hù)吧?’武山說,‘可我不知道有沒有行業(yè)標(biāo)準(zhǔn),現(xiàn)在我是全靠自律的。就是如果我想看,我隨便都能看到?。?rsquo;
據(jù)《財(cái)經(jīng)》此前的報(bào)道,國內(nèi)個(gè)人信息泄露數(shù)達(dá)55.3億條,平均每個(gè)人有四條相關(guān)個(gè)人信息泄露,這些信息最終在黑市反復(fù)倒手,直至被榨干價(jià)值。其中,80%的數(shù)據(jù)泄露來自企業(yè)內(nèi)鬼,黑客僅占20%。去年6月,廣東蒼南警方發(fā)布通報(bào),有蘋果公司國內(nèi)員工涉嫌以非法手段獲取蘋果手機(jī)關(guān)聯(lián)的個(gè)人信息,包括用戶注冊(cè)蘋果賬戶時(shí)所填個(gè)人信息,涉案22人中有20人在蘋果國內(nèi)直銷公司及蘋果外包公司工作,每條以10元到180元不等的價(jià)格出售,非法倒賣個(gè)人信息至少20多萬條。
就在不久前,一名Facebook安全工程師被解雇,因?yàn)樵诰W(wǎng)上搭訕女性的時(shí)候吹噓,自己能夠看到所有人的信息,‘我是一個(gè)專業(yè)的跟蹤狂’。而一位豆瓣用戶則發(fā)文稱,與前男友分手后遭到持續(xù)跟蹤騷擾,前男友利用某電商App登錄漏洞,查到了她家人、閨蜜、朋友的姓名、住址、電話,可是即便經(jīng)過投訴,最終也沒有阻止跟蹤狂的持續(xù)登錄。
現(xiàn)在,買東西需要填個(gè)注冊(cè)表,或者下載新App后需要關(guān)聯(lián)用戶信息,都會(huì)讓武山不舒服。他說,這可能是他的‘職業(yè)病’。
在互聯(lián)網(wǎng)上,韋思岸做過的最瘋狂的人性實(shí)驗(yàn),是關(guān)于自己的。從2006年開始,他主動(dòng)將自己所有聯(lián)系信息公布在自己的網(wǎng)站上。在那里,任何人都可以看到他的實(shí)時(shí)地址、電話、郵箱、行程、工作日程、即將搭乘的航班號(hào)及座位號(hào)。他公布了自己在舊金山和上海的住址,精確到樓層房間號(hào)。
這和他的父親的經(jīng)歷有關(guān)。韋思岸的父親因?yàn)楸徽_陷是間諜,曾被強(qiáng)行關(guān)進(jìn)監(jiān)獄,坐了六年牢。后來,韋思岸查閱父親的個(gè)人檔案時(shí),意外地發(fā)現(xiàn),即便父親出獄后,安全部還在持續(xù)監(jiān)視他,還給身為兒子的自己建了檔案,收集信息。
這個(gè)經(jīng)歷極大影響了他的數(shù)據(jù)觀,‘我們不能抱著一個(gè)天真浪漫的觀點(diǎn),還以為我們能夠擁有隱私。我見過數(shù)據(jù)是怎么對(duì)待我的父親的,我的父母曾經(jīng)一度一無所有,我們不應(yīng)該天真地以為,一切不會(huì)再重現(xiàn)。’
‘我把聯(lián)系方式放在網(wǎng)上,可要是讓我公布我的搜索記錄,我絕對(duì)不愿意。’他說,某種程度上來說,電話號(hào)或者住址并不是私密信息,你的朋友知道,你的同事也可能知道,但搜索記錄中所透露出的個(gè)人喜好、習(xí)慣,則是非常私密的個(gè)人信息。
一個(gè)安卓App開發(fā)者曾經(jīng)試圖跟女朋友解釋自己近乎無所不能的工作:在App安裝后,他能夠獲得大量授權(quán),推斷數(shù)據(jù)里的人群做什么工作、常去哪里、畢業(yè)于什么學(xué)校、有什么愛好、有沒有結(jié)婚、有沒有外遇、有沒有房、有沒有車、現(xiàn)在是外出度假還是在家呆著,甚至通過讀取銀行通知短信,推測(cè)實(shí)際收入。有時(shí)候?yàn)榱丝蛻粜枰?,他還得推測(cè)人心,排除偽君子,比如如果手機(jī)里下載高端財(cái)經(jīng)App,打開頻率卻幾乎為零,那么這個(gè)人的標(biāo)簽要么是不小心下錯(cuò)了軟件,要么就是‘比較裝’??
這些推測(cè)并不完全準(zhǔn)確,也沒有涉及身份信息,卻已經(jīng)讓身為普通用戶的女朋友感到冒犯,沖他大發(fā)脾氣:‘你這人怎么這樣?你為什么要看我們這么多數(shù)據(jù)?。空l叫你拿這些授權(quán)的?是你老板逼你這么干的嗎?’
對(duì)抗
在技術(shù)的世界里,邊界是最難討論清楚的話題。大部分公司都在反復(fù)強(qiáng)調(diào),我們雖然收集大量數(shù)據(jù),但是十分重視隱私,絕對(duì)不會(huì)泄露你的名字。事實(shí)上,許多大公司的確是這樣做的,它們內(nèi)部有非常嚴(yán)格的數(shù)據(jù)保護(hù)措施,比如微信有比較復(fù)雜的ID體系,系統(tǒng)內(nèi)部有用戶的唯一ID標(biāo)識(shí),但是第三方開發(fā)者不能獲得這個(gè)唯一ID,即便是同一個(gè)用戶,在不同公眾號(hào)下被第三方開發(fā)者收集到的ID都是完全不一樣的,這樣就完全阻止公眾號(hào)之間用戶數(shù)據(jù)的隨意買賣交易。
負(fù)責(zé)用戶挖掘的微信斑馬系統(tǒng)只支持一萬人以上的人群畫像分析,從而實(shí)現(xiàn)‘分析一群人而不分析一個(gè)人’,而在分析過程中也會(huì)主動(dòng)控制精度,比如分析用戶住址時(shí),只定位到小區(qū),不再基于氣壓傳感器定位高度,做樓棟和樓層的定位。
在一次媒體采訪會(huì)上,阿里巴巴的一個(gè)技術(shù)負(fù)責(zé)人說:‘數(shù)據(jù)肯定是往越來越嚴(yán)控的方向發(fā)展,我們采集信息的目的,其實(shí)還是為了更好地提升用戶體驗(yàn),所以一個(gè)基本原則是,這些信息的獲取要從提升產(chǎn)品的角度出發(fā)。’比如對(duì)有的App來說,獲取WIFI信息是為了挖掘用戶社交關(guān)系,這讓人感覺越界,但是對(duì)金融、支付類的App來說,知道WIFI地址可以快速判斷這是不是用戶常用地址,這筆交易有沒有可能是盜刷,它能有效防范資金風(fēng)險(xiǎn)。
不過,雖然花了兩個(gè)小時(shí)反復(fù)解釋現(xiàn)有隱私保護(hù)如何嚴(yán)格,臨走的時(shí)候,他還是忍不住補(bǔ)了一句:‘不過啊,最近網(wǎng)上那種做個(gè)心理測(cè)試啊,點(diǎn)進(jìn)圖片生成自己的照片啊那種,我勸大家還是不要點(diǎn)了,那種背后一般都存在很大的信息收集的。’
這種看似無害的休閑App可能不會(huì)直接竊取手機(jī)號(hào)、身份證號(hào)等身份信息,但就在點(diǎn)擊授權(quán)、進(jìn)入游戲的那一瞬間,它很容易完全獲得你的社交關(guān)系和網(wǎng)絡(luò)行為習(xí)慣。今年3月份,F(xiàn)acebook被爆隱私丑聞,存在影響8700萬人的嚴(yán)重?cái)?shù)據(jù)隱私濫用,這些數(shù)據(jù)包括用戶的社交關(guān)系、興趣偏好、點(diǎn)贊記錄等個(gè)人信息,而這一切就是從類似的心理測(cè)試開始的。劍橋分析公司通過左右這些用戶在Facebook收到的推送,影響他們?cè)诿绹筮x中對(duì)候選人的態(tài)度,最終幫助特朗普當(dāng)選,這些數(shù)據(jù)也‘不知道被復(fù)制了多少次’,甚至有可能存儲(chǔ)在俄羅斯。
并不是沒有技術(shù)辦法對(duì)抗這樣的數(shù)據(jù)危機(jī)。在英國,有專門保護(hù)個(gè)人隱私的公共機(jī)構(gòu),直接向英國國會(huì)報(bào)告。它提出了數(shù)據(jù)管理者登記制度,要求每個(gè)處理個(gè)人信息的機(jī)構(gòu)都要在信息專員辦公室登記,否則就算為刑事犯罪。很多公司也有謹(jǐn)慎的數(shù)據(jù)使用哲學(xué)。谷歌會(huì)把用戶的姓名、賬號(hào)、聯(lián)系方式、地址等信息,與行為數(shù)據(jù)完全分開,不會(huì)將兩者關(guān)聯(lián)使用。而雅虎會(huì)有專門的研究員,在實(shí)踐中界定數(shù)據(jù)搜集的隱私邊界。
許多數(shù)據(jù)科學(xué)家將自己設(shè)計(jì)的隱私保護(hù)對(duì)策詳細(xì)公布在論文中,有人將分散信息流控制和差分隱私保護(hù)技術(shù)應(yīng)用到云計(jì)算,還有人通過模糊處理(obfuscation)技術(shù)對(duì)用戶隱私全程加密,另一種有效的操作方法是制造噪聲,根據(jù)用戶歷史記錄制造等比例的行為噪音,這樣試圖解讀用戶行為的服務(wù)商就很難辨別哪個(gè)是用戶真實(shí)需求,哪個(gè)是系統(tǒng)制造的噪音,從而保護(hù)用戶真實(shí)的隱私。
但是,在真實(shí)的大數(shù)據(jù)前線,還輪不上這些對(duì)策上場(chǎng),仗已經(jīng)敗了。技術(shù)理想的敵人其實(shí)比想象中更原始——嚴(yán)謹(jǐn)規(guī)則背后,不講規(guī)則的人。
程路從美國留學(xué)回來后,在國內(nèi)一家交友類社交平臺(tái)工作,負(fù)責(zé)大數(shù)據(jù)處理。運(yùn)營的同事要做市場(chǎng)推廣活動(dòng),要看用戶數(shù)據(jù),他想看用戶最近在聊什么,然后根據(jù)用戶喜好有針對(duì)性地開展活動(dòng)。‘理論上講,這也是業(yè)務(wù)需求,他想抽樣,我也不介意。’程路說,聊天記錄經(jīng)過加密處理,他很快做了抽樣,斷裂可追溯信息,對(duì)用戶信息做了脫敏。但是運(yùn)營同事不愿意,他要求看全量數(shù)據(jù)。
全量數(shù)據(jù)是什么概念?它是一個(gè)用戶在App上的所有數(shù)據(jù),能夠非常精準(zhǔn)地描述用戶,他的身份背景、興趣愛好、行為習(xí)慣,甚至每天的喜怒哀樂,都能從行為痕跡里推測(cè)出來,但是這是對(duì)隱私的極大挑戰(zhàn)。程路試著跟對(duì)方解釋,只是做市場(chǎng)推廣的話,使用脫敏后的抽樣樣本就可以了,沒有必要查看全量數(shù)據(jù)。
但意外的是,這個(gè)提議沒有得到理解。運(yùn)營的人不同意,公司CTO不同意,連CEO也不同意。他的一個(gè)同行說,‘我挺驚訝的,做這一行的還有這種想法。’而另一個(gè)同行評(píng)價(jià)他,‘心態(tài)這么不穩(wěn),怎么在中國生活?如果知道自己的房子、車子、保險(xiǎn)、信用卡、婚戀、酒店入住、戶籍信息、工作信息等等全部真實(shí)的信息每天都在各個(gè)公司的銷售那里買賣轉(zhuǎn)手百來次,你還會(huì)有什么感想?毫無心理波動(dòng)。’
可是,這對(duì)程路來說,違背了自己的技術(shù)理想。‘這就好像借著你的手,把別人的日記挨頁翻給人看一樣。’他反問,‘要是你的日記,你愿意嗎?’
最后,決定數(shù)據(jù)命運(yùn)的是來自CEO輕描淡寫的評(píng)論,‘這有啥啊,你就給他唄!’
程路把全量數(shù)據(jù)給了業(yè)務(wù)部門,同一個(gè)禮拜,他辭職了,‘一半的原因是這件事吧,道不同了。’在這里,他還時(shí)不時(shí)要面對(duì)數(shù)據(jù)交易,會(huì)有大公司的銷售人員拿著報(bào)價(jià)表找他談合作,表單上每一類用戶群體都有一個(gè)大概標(biāo)價(jià),愛旅游的、每天點(diǎn)外賣的、打游戲時(shí)長每天超過4小時(shí)的,每一個(gè)群體都有一批相對(duì)應(yīng)的廣告主喜歡。所以,只要細(xì)化出了用戶特征,就能有機(jī)會(huì)把它賣錢,這是一筆大生意,但這讓他感到很不舒服。
現(xiàn)在,他在一家外資游戲公司,選擇新工作有很多理由,其中一個(gè)考慮,現(xiàn)在的大環(huán)境里很難找到一個(gè)不越界的公司,那就找個(gè)沒那么強(qiáng)烈想要收集社交數(shù)據(jù)的地方。他說,這樣工作起來心里會(huì)舒服點(diǎn)。
韋思岸說,對(duì)抗隱私危機(jī),最有效的辦法只有嚴(yán)懲。‘我們不能天真地期待數(shù)據(jù)公司能夠有足夠的自我驅(qū)動(dòng)力,替我們維護(hù)數(shù)據(jù)中的隱私部分。對(duì)這些公司而言,懲罰是它們唯一聽得懂的語言。’
數(shù)據(jù)未來
我們正在面對(duì)的數(shù)據(jù)未來是,人或許比想象中更容易預(yù)測(cè),而算法可能比我們更了解世界。
2008年9月15日,美國雷曼兄弟公司宣告破產(chǎn),引發(fā)次貸危機(jī),而最早察覺到這件事的是Linkedin的數(shù)據(jù)科學(xué)家。他們注意到,9月14日明明是一個(gè)周末,網(wǎng)站數(shù)據(jù)卻十分活躍,不斷有人瘋狂聯(lián)系工作、更新簡歷、發(fā)送消息,而所有這些行為都來自雷曼兄弟的員工。
隨著技術(shù)優(yōu)化,現(xiàn)在甚至不需要成為專業(yè)人士,就能洞察真相。就在今年初,使用健身記錄軟件Strava的用戶發(fā)現(xiàn),仔細(xì)查看App所提供的跑步熱力圖,能輕易推測(cè)出美軍駐阿富汗軍事基地的具體位置。因?yàn)樗鼤?huì)實(shí)時(shí)追蹤用戶位置數(shù)據(jù),以高亮形式呈現(xiàn)在地圖上,而在當(dāng)?shù)赜脩艉苌俚膽?zhàn)亂地區(qū),每天集體跑步的美國士兵在熱力圖上圈出了異常明顯的行動(dòng)路線,基地位置、出勤時(shí)間、巡邏路線在圖上一目了然。
2012年,美國羅徹斯特大學(xué)教授亞當(dāng)·薩迪克(Adam Sadilek)和微軟實(shí)驗(yàn)室的工程師約翰·克拉姆(John Krumm)共同發(fā)布了他們的研究,‘如今已有大量研究能夠預(yù)測(cè)人的未來行程,比較典型的是可以預(yù)測(cè)一小時(shí)以后,人會(huì)去哪兒。’他們的論文這樣寫道,‘相反,我們著手解決的是更開放的難題——預(yù)測(cè)數(shù)月甚至數(shù)年后,人們會(huì)在哪兒。’
他們收集了32000天里307個(gè)人和396輛車的GPS數(shù)據(jù),構(gòu)建模型,準(zhǔn)確度高達(dá)80%。在他們的描述里,未來的營銷廣告甚至可以精確成這樣:‘需要理發(fā)嗎?4天后,你將會(huì)出現(xiàn)在這家美發(fā)廳附近,到時(shí)候可以獲得5美元的折扣。’
大河說,有次數(shù)據(jù)團(tuán)隊(duì)私下聊天,聊著聊著突然有人問,一個(gè)人活一輩子,是不是也能用大數(shù)據(jù)分析出來?
結(jié)果,幾個(gè)人嘻嘻哈哈地開始推演,很快把自己嚇到了。在理想狀態(tài)下,一個(gè)人從生到死的每一個(gè)階段,還真有可能預(yù)測(cè)出來——出生在哪里,家庭背景什么樣,父母收入水平怎么樣,小時(shí)候的性格行為習(xí)慣,結(jié)合當(dāng)?shù)亟逃街笖?shù),再算上從新聞中提取的實(shí)時(shí)經(jīng)濟(jì)波動(dòng)曲線等等,很多以為是意外的東西,更多時(shí)候只是一種計(jì)算概率。
討論到最后,有人嚷嚷,那活著還有什么意思???鬧了半天,活著就是一個(gè)數(shù)學(xué)概率問題???
事實(shí)上,這是一部分?jǐn)?shù)據(jù)科學(xué)家的愿望。他們希望打通每個(gè)環(huán)節(jié)的數(shù)據(jù),獲得全域大數(shù)據(jù),開啟‘上帝視角’,最大限度挖掘數(shù)據(jù)。在樂觀者的描述里,那會(huì)是一個(gè)奇妙的世界,機(jī)器會(huì)基于大數(shù)據(jù)替我們選擇最劃算的商品、最合適的醫(yī)生、最好的路徑,以后也不再會(huì)有交通堵塞,每個(gè)人的運(yùn)行軌跡會(huì)實(shí)時(shí)調(diào)整配置,一路綠燈??
但是,也會(huì)遇到另一種可能:你的健康數(shù)據(jù)顯示你的膽固醇過高,需要鍛煉,節(jié)制飲食,可是你的購物車?yán)锵聠瘟擞驼ㄊ称?,簽收人是你本人,運(yùn)動(dòng)傳感器顯示,你沒去跑步,還是窩在沙發(fā)上看電視劇,因此,潛在招聘官判定你的性格含有‘意志薄弱’的標(biāo)簽,打算拒絕你的求職申請(qǐng)。
這是一家大公司技術(shù)負(fù)責(zé)人曾經(jīng)面對(duì)的一個(gè)真實(shí)的選擇。在他的故事里,數(shù)據(jù)研究者找到他,希望他打通數(shù)據(jù),利用用戶的購物數(shù)據(jù)輔助招聘決策。但是那一次,他選擇了放棄。一大理由是跨度太大,準(zhǔn)確率無法保證,另一個(gè)理由是,這樣做讓他多少感到倫理越界,‘大數(shù)據(jù)亦有所不為’。
在大數(shù)據(jù)的世界里,依然有人相信,世界上總有數(shù)據(jù)沒有辦法解釋的那部分人性。韋思岸說,他依然更相信Serendipity,機(jī)緣巧合。‘我不想被定位、細(xì)分、轉(zhuǎn)化、分析,我可不想成為一個(gè)被大數(shù)據(jù)模型定義的人。’
盡管早已不是一名物理學(xué)家,但是他依然篤信許多物理學(xué)法則,比如能量守恒、關(guān)系反轉(zhuǎn)。大數(shù)據(jù)最美好的部分,不是最終發(fā)現(xiàn)了揭示人性的完美模型,而是不斷探索人性的過程。
他說,技術(shù)最美妙之處,就在于它能夠提供無數(shù)的可能性。技術(shù)挖掘用戶數(shù)據(jù),讓人感受到越界,但同樣地,它也能用來曝光那些封閉信息的官僚機(jī)構(gòu)和組織,用技術(shù)的方式打破他們的掩飾,讓數(shù)據(jù)完全透明,為公眾所用?,F(xiàn)在的關(guān)鍵,是展開公開的討論,找到這條邊界。
無論如何,我們依然生活在這個(gè)數(shù)字化包圍的世界,不愿意放手。統(tǒng)計(jì)顯示,人們平均每天要在手機(jī)屏幕上滑動(dòng)2617次,在睡不著覺的晚上,23%的受訪者會(huì)抱著手機(jī)睡覺,而其中的3%則強(qiáng)調(diào),自己必須要天天握著手機(jī),才能入睡。
光纖傳回?cái)?shù)據(jù)的時(shí)候沒有聲音,它不會(huì)提醒你,這里正在發(fā)生什么。在更好的規(guī)則到來前,大數(shù)據(jù)世界將依然是一個(gè)沒有警笛的沉默戰(zhàn)場(chǎng)。就像是這座城市里被忽視的周五晚高峰地鐵上的八卦、沒有打開的高端財(cái)經(jīng)App、被印在報(bào)價(jià)表上的個(gè)人喜好,還有那些為了它苦惱、爭吵、麻木、抗?fàn)幍娜祟惞适乱粯?,它們只存在在一串字符與另一串字符的連接中,極少為人們所知。
(原標(biāo)題:大數(shù)據(jù)背后,是誰在監(jiān)視我們的生活?)