大數據時代,“匿名化”真的能保護我們的隱私安全嗎?

寬帶資本
張曦
有些公司已經將“數據匿名化”作為其戰(zhàn)略的一部分,Apple刻意減少對數據的收集,因為擁有大量數據可能會使公司更容易成為黑客的目標,同時努力對收集的數據進行匿名化處理。

大數據時代下,數據的收集與應用在帶來巨大社會價值的同時,也帶來了個人隱私保護方面的難題。如何在對數據進行挖掘應用的過程中保護個人隱私,防止敏感信息泄露成為新的挑戰(zhàn)。

在此前備受關注的“劍橋分析公司數據泄露”事件中,Facebook上超過5000萬用戶的信息被一家名為“Cambridge Analytica”的公司不當獲取并用于未經授權的目的。然而,根據Facebook的解釋,這些個人信息,例如用戶填寫的心理測試結果,全部是在經過“匿名化”處理后才被用于對外分享的。公司表示,在獲取用戶的授權后,這些數據會“通過匿名的方式被使用和分發(fā),并且保證即使利用這些信息也不能追溯到個人用戶”。

然而“匿名化”真的可以在大數據時代保護我們的個人隱私嗎?

2015年,數據匿名化和隱私領域的研究員Latanya Sweeney針對華盛頓HIPAA(Health Insurance Portability and Accountability)法案保護下的醫(yī)療記錄數據進行了一項“去匿名化”研究。在該州(以及許多其他州),公司和個人可以購買匿名的醫(yī)療記錄數據。Sweeney通過合法渠道購買相關數據,其中包括“該州一年內幾乎所有的住院治療記錄”以及就診記錄相關的大量細節(jié),包括患者接受的診斷、手術,主治醫(yī)生信息、收費摘要等等。這些記錄都是匿名的,因為它們不包含患者的姓名或地址,但包括患者所在地址的郵政編碼。

之后,Sweeney查閱了華盛頓州自2011年以來刊發(fā)的所有包含“住院治療”一詞的新聞報道,總共找到了81篇文章。通過對文章內容和匿名數據庫進行比對分析,Sweeny發(fā)現其中35篇報道能夠在數據庫中找到與之精準對應的唯一醫(yī)療記錄。而這些新聞報道中明確包含了患者的姓名,“成功”實現了對這35名患者的“去匿名化”。

眾所周知,數據已成為現代社會發(fā)展的重要推動力。研究人員會收集大量的數據,并基于數據開展研究工作。Google的數據庫可以包含你的完整搜索歷史記錄;Facebook存儲著大量用戶的行為、評論和照片信息。這些數據決定著我們會看到哪些新聞、電影和廣告,哪些朋友的帖子會出現在我們社交媒體的feed流中,以及哪些潛在的伴侶會出現在我們的交友app中。然而,這里涉及的大部分數據都與我們的個人隱私息息相關。

01.政府、企業(yè)和研究機構持續(xù)收集著大量的數據

通常情況下,我們不會向陌生人透露我們的信用卡記錄或醫(yī)療記錄,因為我們對這些數據的敏感性有著清晰的認識。那么,為什么我們會泄露這些最私密的個人信息呢?原因是大多數人首先是數據“泄露”的受益者。Google通過收集數據優(yōu)化搜索體驗,并幫助Gmail過濾垃圾郵件;用戶信用卡記錄可以幫助銀行監(jiān)測信用卡盜刷行為;醫(yī)療記錄可以幫助研究人員研發(fā)新藥,或者幫助醫(yī)生制定更好的治療計劃。

但人們享受這些益處并非沒有代價。政府、企業(yè)和研究機構持續(xù)進行著大量的數據收集,而這僅僅是這一系列數據旅程的開始。它們將被重新打包,與來自其他來源的數據相結合,并通過合法或非法的方式被轉售給“需要的人”。典型的數據包括:

你的位置(包括實時的與歷史上的)

你的信用卡交易記錄

你的網站瀏覽歷史記錄

你在網站的登錄憑據

你的社會安全號碼

你的醫(yī)療記錄

即使你認為自己并沒有什么需要隱藏的“秘密”,對個人數據的濫用仍可能對你造成不利影響。因此,大部分相關方在存儲或轉售個人信息時,一直在努力實現個人數據的“匿名化”。某些情況下,數據匿名化存在法律要求,例如HIPAA對個人醫(yī)療數據的要求,盡管HIPAA提供的保護并不像大多數人想象的那么強。類似的,歐盟最新的通用數據保護條例(GDPR)對能夠識別個人身份信息的數據提出了嚴格的使用限制,相比之下,GDPR對匿名數據的使用限制則較少。

除此之外,有些公司已經將“數據匿名化”作為其戰(zhàn)略的一部分。例如,與Google和Facebook不同,Apple刻意減少對數據的收集,因為擁有大量數據可能會使公司更容易成為黑客的目標。同時,Apple努力對收集的數據進行匿名化處理,并且不會對外轉售用戶數據。

這些舉措很有勇氣,值得鼓勵。遺憾的是,研究表明,許多匿名化數據都很容易被“去匿名化”,尤其是當多個數據來源有一定程度的重疊的時候,區(qū)別一個數據來源和另一個數據來源的任一信息都能被用于去匿名化。

這里有一個關于“去匿名化”的知名案例。2006年,Netflix為改善其電影推薦服務,公布了包含部分用戶評分的數據庫,其中包括用戶對電影的評分和評分日期。該數據庫是匿名的,采用隨機更改數據庫中包含的大約480,000個用戶的部分評級和評級日期等方法對數據庫進行匿名化處理。

盡管存在這些干擾,但研究人員的實驗結果表明:只需非常少的輔助信息,就可以對Netflix數據庫中的大部分的用戶記錄進行去匿名化。通過8部電影的評分,和允許誤差14天的評分日期,就可以唯一標識數據庫中99%的用戶;而僅通過2部電影,就可以標識68%的用戶。而一個人觀看8部電影的記錄很容易獲得,通過與其聊天或者查看他的博客就有可能得到。

電影評級可能看似無害,它們顯然不如醫(yī)療記錄敏感,但仍然可以揭示一個人的政治觀點、宗教信仰和性取向等,從而嚴重侵犯一個人的隱私并使其處于危險之中。這對于當前的數據驅動型社會來說是一個嚴峻的挑戰(zhàn)。

02.隨著更多數據的公開或泄露去匿名化將變得更加容易

現實是,我們的數據正在被越來越多地被泄露和盜取。美國聯邦緊急事務管理局(FEMA)今年早些時候泄露了230萬災民的家庭地址和銀行賬戶信息;美國三大個人信用評估機構之一的Equifax在2017年遭遇黑客攻擊,超過1.45億人的信息被盜;非營利組織Privacy Rights Clearinghouse的研究顯示,自2005年開始,14年中共發(fā)生了8804次數據泄露,超過115億條記錄被泄露。這意味著自2005年以來,平均每天發(fā)生1.7次數據泄露,220萬條記錄被泄露。當別有用心的人將所有這些數據拼湊在一起時,數據的去匿名化將變的更加容易。

對于相關領域的學者來說,這些擔憂并不是什么新聞。2010年,個人隱私律師Paul Ohm就曾在《UCLA法律評論》中刊文指出,雖然惡意攻擊者可以使用個人身份信息(如姓名或社會安全號碼)將數據與個人身份進行關聯,但事實證明,即便只擁有那些不會被歸類為“個人身份信息”的信息,他們也可以達到同樣的目的。

Ohm參考了Sweeney早期的一些研究,她發(fā)現1990年美國人口普查中有87%的人可以通過兩條信息進行唯一識別:他們的出生日期和他們住址的郵政編碼。Ohm還引用了Netflix以及其他有關數據泄露的案例,并得出結論:在傳統(tǒng)的以個人身份信息為保護重點的匿名化技術下,幾乎任何數據都無法實現永久的完全匿名。

2013年,研究人員發(fā)現位置數據具有高度的獨特性,因此更加難以匿名化。許多匿名數據庫都可能間接泄露你的位置,例如刷卡消費或前往醫(yī)院就診。研究人員發(fā)現,通過每小時記錄4次手機連接到的信號發(fā)射塔,就可以對95%的設備進行唯一識別。如果數據更精細(GPS跟蹤而不是信號發(fā)射塔,或者實時采集而不是每小時采集),匹配則會變得更加容易。

03.數據的合理利用具有積極的社會價值

然而不可否認的是,盡管面臨被濫用的風險,但數據的合理利用同時又具有很多積極的社會價值。我們希望醫(yī)學研究人員創(chuàng)造新的藥物和治療方法、希望我們的房屋能夠自動調節(jié)到舒適的溫度、希望Google地圖提示我們前方道路擁堵。我們渴望大數據帶來的益處,卻又不想面臨去匿名化的風險。

然而事實是,我們必須做出權衡。我們已經被迫放棄了一些隱私,未來可能還需要放棄更多,但真正關鍵的是如何降低我們的隱私被濫用的可能性。

保護敏感數據和防止未經授權的訪問必須成為每一個數據收集者的第一要務。同時,監(jiān)管機構也應持續(xù)加強對個人數據隱私的保護力度。例如,GDPR鼓勵公司存儲更少的數據并盡最大努力對存儲的數據進行匿名化處理,即使這并非100%有效。

同樣,參與數據收集和存儲的每一方都應該及時了解最新的隱私保護技術。例如差分隱私(Differential Privacy,一種基于密碼學的隱私保護技術)這樣的策略,即在數據庫發(fā)布之前將一些隨機噪聲添加到數據庫中,這有助于減少基于數據關聯性的攻擊。Apple和Google都在研究差分隱私策略方面付出了很多努力,這些舉措值得借鑒。

總而言之,我們需要坦誠面對數據帶來的價值和風險,并謹慎權衡。一方面,我們希望釋放大數據的力量,為我們的生活帶來積極的改善。而另一方面,大量數據存在的本身就是一種隱私風險。如果我們放棄過多的隱私,大數據則可能進一步剝奪我們的自由。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論