隨著移動醫(yī)療、AI醫(yī)療影像、電子病歷等醫(yī)療數(shù)字化程度的加深,如今醫(yī)療數(shù)據(jù)被泄露已成家常便飯。
在理想狀態(tài)下,醫(yī)療數(shù)字化是解決世界范圍內(nèi)醫(yī)療資源分配效率低下的最好方法。
通過移動化、AI等新技術(shù),醫(yī)患之間可以實現(xiàn)遠(yuǎn)程溝通,不僅節(jié)省了就醫(yī)成本,同時更讓醫(yī)療資源得到了均衡配置,即使醫(yī)療資源過于集中在一線城市,那些生活在三四線和鄉(xiāng)、鎮(zhèn)、村的人們也能通過這種方式獲得更好的醫(yī)療服務(wù)。
但每個硬幣都有兩面。
當(dāng)人們在享受互聯(lián)網(wǎng)醫(yī)療帶來的巨大便利同時,卻未曾考慮過它的陰暗面,那就是個人醫(yī)療健康數(shù)據(jù)泄露。由于云端配置錯誤,美國一家為患者提供家庭醫(yī)療服務(wù)的企業(yè)Patient Home Monitoring保存在亞馬遜S3服務(wù)器中的47GB的醫(yī)療數(shù)據(jù)意外泄露,預(yù)計至少有15萬患者受影響。
這些泄露的數(shù)據(jù)包括患者的血液測試結(jié)果、個人信息,如患者的姓名、家庭住址、醫(yī)生信息以及病例管理記錄等。
在中國,醫(yī)療機(jī)構(gòu)大都各自為政,即便是一個醫(yī)院內(nèi)部也很難做到信息共享。目前市場上各類移動醫(yī)療APP沉淀著大量個人醫(yī)療數(shù)據(jù),很多用戶只看到了這些產(chǎn)品的工具屬性或平臺屬性,卻沒人在意這些數(shù)據(jù)最終流向哪里,或被用到何處,信息共享和個人隱私的博弈始終在進(jìn)行。
醫(yī)療大數(shù)據(jù)的“棱鏡”如何窺測隱私?
卡內(nèi)基梅隆大學(xué)Latanya Sweeney教授曾發(fā)表過一個《簡單的人口統(tǒng)計往往能識別出人的獨特性》報告,其指出:少數(shù)特征的組合常常結(jié)合在一起即可唯一地識別某些個體。
在基于美國選舉人公共注冊信息的基礎(chǔ)上,87%的美國人基于郵編、性別、出生日期即有可能被識別出個人身份;
53%的美國人通過地點、性別、出生日期可能被識別出個人身份;在縣一級,18%的美國人通過縣、性別、出生日期可能被識別出個人身份。
顯然,包括上述個人信息的數(shù)據(jù)字段是不應(yīng)該被公開的,因為這有可能泄露個人隱私。比如:該研究曾使用麻省總醫(yī)院的出院數(shù)據(jù)和選舉投票的注冊數(shù)據(jù)進(jìn)行匹配,最終鏈接出某麻省議員的住院信息。
健康醫(yī)療大數(shù)據(jù)在全球快速發(fā)展,越來越多的個人數(shù)據(jù)被“脫敏”后公開,用于精準(zhǔn)醫(yī)學(xué)等各類大數(shù)據(jù)研究。然而,如上所述的健康醫(yī)療數(shù)據(jù)被公開或?qū)⒁鲆幌盗须[私安全問題。
脫敏后分享,隱私就會安全嗎?健康醫(yī)療大數(shù)據(jù)時代,大量醫(yī)療數(shù)據(jù)被源源不斷采集。人們往往認(rèn)為,一組醫(yī)療數(shù)據(jù)把名字、身份證信息去掉后就安全了,可以公開使用。
然而,當(dāng)這組數(shù)據(jù)跟另一組數(shù)據(jù)連在一起時,可能會完全暴露個人隱私。如果加入基因數(shù)據(jù),隱私安全威脅就會更明顯。
隨著基因檢測技術(shù)發(fā)展,只需大概75個統(tǒng)計上獨立的SNP位點即可唯一確定一個人,所以說基因數(shù)據(jù)比指紋數(shù)據(jù)更敏感。
當(dāng)基因檢測數(shù)據(jù)與一些病理數(shù)據(jù)相遇時很容易匹配到具體個人,這種確認(rèn)可能會侵犯人類隱私。
2013年,英國曾推出一個Care.data計劃,將有關(guān)病人的數(shù)據(jù)采集、匯總,進(jìn)行共享和使用,但是實施不過3年,2016年7月份,該項目被關(guān)停,更多的原因則是隱私方面的問題沒有做得很好。
首先,對數(shù)據(jù)的保密性關(guān)注不夠,比如,對個人隱私進(jìn)行匿名化和脫敏處理之后,該系統(tǒng)和其他系統(tǒng)關(guān)聯(lián)后,依然可以通過數(shù)據(jù)挖掘的方式辨別有關(guān)病人。
其次,項目里沒有界定數(shù)據(jù)開放共享的用處。最后,采集病人的數(shù)據(jù)信息時,并未征得患者的同意。
今年年初,比雷埃夫斯大學(xué)研究人員對安卓生態(tài)中20款最受歡迎的醫(yī)療、健康類產(chǎn)品進(jìn)行了調(diào)研,得出的結(jié)論是80%的產(chǎn)品涉嫌擅自傳播用戶數(shù)據(jù)。
這些產(chǎn)品中有50%都和第三方共享用戶文本、多媒體甚至醫(yī)療影像方面的數(shù)據(jù)。而且有20%的應(yīng)用沒有推出包含隱私問題的用戶須知文件。
隱私數(shù)據(jù)如何突破“棱鏡”困擾?
健康醫(yī)療大數(shù)據(jù)的巨大潛力吸引無數(shù)醫(yī)療機(jī)構(gòu)、科研團(tuán)體積極探索,一邊是數(shù)據(jù)帶來的隱私安全“黑洞”,一邊是精準(zhǔn)醫(yī)學(xué)打開的未來醫(yī)療世界大門,隱私安全保護(hù)與數(shù)據(jù)公開應(yīng)用能否兼得?以下一些技術(shù)可以在醫(yī)療數(shù)據(jù)化過程中加以應(yīng)用。
去中心化的分布式分析:如果多個醫(yī)療機(jī)構(gòu)想聯(lián)合進(jìn)行醫(yī)療或者基因數(shù)據(jù)的某些分析,其實是不需要直接交換個體數(shù)據(jù),而是通過交換統(tǒng)計值就能得到想要的結(jié)果。
通過分享統(tǒng)計值,就可以有效降低數(shù)據(jù)分享過程中的隱私風(fēng)險。
比如學(xué)習(xí)一個模型需要看某些參數(shù),這些參數(shù)代表疾病的高風(fēng)險性與年齡、性別或其它特征的關(guān)系,我們可以把從每個醫(yī)療機(jī)構(gòu)內(nèi)部個體數(shù)據(jù)得到的統(tǒng)計值整合成一個全局的模型參數(shù),然后把對應(yīng)的模型分享給研究人員,但訓(xùn)練模型的原始數(shù)據(jù)并不需要被分享給其他醫(yī)療機(jī)構(gòu)或研究人員。
差分隱私:如果只是做一些前期探索性研究,研究者并不需要原始數(shù)據(jù),只需要跟原始數(shù)據(jù)相似的數(shù)據(jù)信息即可。
因此,可以在原始的數(shù)據(jù)上添加噪音,或者先在原始數(shù)據(jù)上擬合出一個分布來,然后在這個分布的空間里面再抽象出數(shù)據(jù)來。
這個數(shù)據(jù)會跟原始數(shù)據(jù)很相像,但是沒有任何點能夠?qū)?yīng)到原始數(shù)據(jù)上。這樣,研究人員可以使用這種數(shù)據(jù)去做研究,但是無從得知數(shù)據(jù)本來屬于誰。
同態(tài)加密:如果是基于公有云做數(shù)據(jù)運(yùn)算,為提高安全等級可以選擇同態(tài)加密。
同態(tài)加密是級別非常高的一項加密手段,通過同態(tài)加密可以在加密數(shù)據(jù)上做加密運(yùn)算,得到的結(jié)果也是加密的,只有授權(quán)的用戶才能把加密的結(jié)果拿到。這樣就能既能讓用戶放心使用公有云資源,又能保護(hù)個人隱私等數(shù)據(jù)安全。
硬件加密:利用英特爾第六代之后的芯片的一個加密區(qū)域,讓只有授權(quán)的用戶才可以訪問。所有數(shù)據(jù)在硬件外都是加密的,非授權(quán)用戶看不到。
目前,在圣地亞哥Rady兒童醫(yī)院、倫敦帝國學(xué)院、新加坡基因研究所三國聯(lián)合開展的川崎病研究項目中,由于三個國家對于基因數(shù)據(jù)隱私保護(hù)的要求不同,項目數(shù)據(jù)傳輸與分析是通過硬件加密的方式來實現(xiàn)的。
未來,醫(yī)療將是全民主動參與的時代,每個人都是數(shù)據(jù)的提供者、使用者和受益者,因此更需要用戶主動提升隱私安全保護(hù)意識,方可更加有效的保護(hù)自己。
與此同時,在醫(yī)療數(shù)據(jù)保護(hù)方面,政府也要進(jìn)一步加強(qiáng)相關(guān)數(shù)據(jù)安全法律建設(shè),企業(yè)則要積極進(jìn)行細(xì)分領(lǐng)域的科技創(chuàng)新,只有多方共同努力,才能真正實現(xiàn)我的隱私我做主。