隱私保護(hù)計(jì)算(Privacy-PreservingComputation)是一套包含人工智能、密碼學(xué)、數(shù)據(jù)科學(xué)等眾多領(lǐng)域交叉融合的跨學(xué)科技術(shù)體系。它能夠在不泄露原始數(shù)據(jù)的前提下,對(duì)數(shù)據(jù)進(jìn)行加工、分析處理、分析驗(yàn)證,其重點(diǎn)提供了數(shù)據(jù)計(jì)算過(guò)程和數(shù)據(jù)計(jì)算結(jié)果的隱私安全保護(hù)能力。
(一)隱私保護(hù)計(jì)算及其關(guān)鍵技術(shù)
隱私保護(hù)計(jì)算(Privacy-PreservingComputation)是一套包含人工智能、密碼學(xué)、數(shù)據(jù)科學(xué)等眾多領(lǐng)域交叉融合的跨學(xué)科技術(shù)體系。它能夠在不泄露原始數(shù)據(jù)的前提下,對(duì)數(shù)據(jù)進(jìn)行加工、分析處理、分析驗(yàn)證,其重點(diǎn)提供了數(shù)據(jù)計(jì)算過(guò)程和數(shù)據(jù)計(jì)算結(jié)果的隱私安全保護(hù)能力。隨著數(shù)字技術(shù)的發(fā)展,隱私保護(hù)計(jì)算的內(nèi)涵及主流技術(shù)不斷演進(jìn)。主流的技術(shù)研究焦點(diǎn)從早期的數(shù)據(jù)擾動(dòng)和數(shù)據(jù)匿名化等演進(jìn)至今,已經(jīng)能夠?qū)崿F(xiàn)數(shù)據(jù)計(jì)算過(guò)程和數(shù)據(jù)計(jì)算結(jié)果的保護(hù),形成一套包含眾多領(lǐng)域的跨學(xué)科安全技術(shù)體系。隱私保護(hù)計(jì)算具體涵蓋了安全多方計(jì)算、聯(lián)邦學(xué)習(xí)、同態(tài)加密、差分隱私和機(jī)密計(jì)算等技術(shù)。
安全多方計(jì)算(SecureMulti-PartyComputation,SMPC),由中國(guó)科學(xué)院院士姚期智于1982年通過(guò)“百萬(wàn)富翁問(wèn)題”提出,旨在解決“一組相互獨(dú)立且互不信任的參與方各自持有秘密數(shù)據(jù),協(xié)同計(jì)算一個(gè)既定函數(shù)”的問(wèn)題。安全多方計(jì)算保證了各參與方在獲得正確計(jì)算結(jié)果的同時(shí),無(wú)法獲得計(jì)算結(jié)果之外的任何信息。
聯(lián)邦學(xué)習(xí)(FederatedLearning,F(xiàn)L),可被理解為是由兩個(gè)或兩個(gè)以上數(shù)據(jù)方共同參與,在保證數(shù)據(jù)方各自原始數(shù)據(jù)不出其定義的安全控制范圍的前提下,協(xié)作構(gòu)建并使用機(jī)器學(xué)習(xí)模型的技術(shù)架構(gòu)。通常情況下,聯(lián)邦學(xué)習(xí)需與其它隱私保護(hù)計(jì)算技術(shù)聯(lián)合使用,才可在計(jì)算過(guò)程中實(shí)現(xiàn)數(shù)據(jù)保護(hù)。
同態(tài)加密(HomomorphicEncryption,HE),是一種允許在加密之后的密文上直接進(jìn)行計(jì)算,且計(jì)算結(jié)果解密后與基于明文的計(jì)算結(jié)果一致的加密算法,可在不解密以實(shí)現(xiàn)數(shù)據(jù)機(jī)密性保護(hù)的同時(shí)完成計(jì)算。根據(jù)支持密文運(yùn)算的程度,同態(tài)加密方案可以分為部分同態(tài)加密方案和全同態(tài)加密方案兩類。部分同態(tài)加密方案能夠支持有限的密文計(jì)算深度,常作為其他方案的組成部分之一進(jìn)行使用。而全同態(tài)加密理論雖支持無(wú)限次任意給定函數(shù)的運(yùn)算,但由于計(jì)算開銷較大,目前尚未形成規(guī)?;纳逃?。
差分隱私(DifferentialPrivacy,DP),是Dwork在2006年針對(duì)數(shù)據(jù)庫(kù)的隱私問(wèn)題提出的一種嚴(yán)格的、可量化的隱私定義和技術(shù)。差分隱私在保留統(tǒng)計(jì)學(xué)特征的前提下,去除個(gè)體特征以保護(hù)用戶隱私。差分隱私具有兩個(gè)重要的優(yōu)點(diǎn):一是提出與背景知識(shí)無(wú)關(guān)的隱私保護(hù)模型,實(shí)現(xiàn)攻擊者背景知識(shí)最大化的假設(shè);二是為隱私保護(hù)水平提供嚴(yán)格的定義和量化評(píng)估方法。
機(jī)密計(jì)算(ConfidentialComputing,CC),機(jī)密計(jì)算是指通過(guò)在基于硬件的可信執(zhí)行環(huán)境中執(zhí)行計(jì)算來(lái)保護(hù)數(shù)據(jù)應(yīng)用中的隱私安全的技術(shù)之一。其中可信執(zhí)行環(huán)境定義為可在數(shù)據(jù)機(jī)密性、數(shù)據(jù)完整性和代碼完整性三方面提供一定保護(hù)水平的環(huán)境4。其基本原理是將需要保護(hù)的數(shù)據(jù)和代碼存儲(chǔ)在可信執(zhí)行環(huán)境中,對(duì)這些數(shù)據(jù)和代碼的任何訪問(wèn)都必須經(jīng)過(guò)基于硬件的訪問(wèn)控制,防止他們?cè)谑褂弥形唇?jīng)授權(quán)被訪問(wèn)或修改,從而提高機(jī)構(gòu)管理敏感數(shù)據(jù)的安全水平5。
除上述技術(shù)外,隱私保護(hù)計(jì)算技術(shù)還包含了秘密共享、不經(jīng)意傳輸、混淆電路、零知識(shí)證明等諸多技術(shù)方向,在此暫不一一贅述。
(二)基于隱私保護(hù)計(jì)算技術(shù)的數(shù)據(jù)流通模式
在實(shí)際應(yīng)用中,根據(jù)數(shù)據(jù)流通方式、數(shù)據(jù)集中程度、模型復(fù)雜度等差異化的業(yè)務(wù)場(chǎng)景,從技術(shù)角度來(lái)說(shuō),基于隱私保護(hù)計(jì)算技術(shù)的數(shù)據(jù)流通方式可分為可信環(huán)境模式、可證模式和可度量模式三類(如圖2所示):
1.可信環(huán)境模式
可信環(huán)境模式,是以機(jī)密計(jì)算技術(shù)為核心,在基于硬件的可信執(zhí)行環(huán)境中執(zhí)行計(jì)算,保護(hù)數(shù)據(jù)應(yīng)用中的隱私安全的集中式計(jì)算模式。該模式本質(zhì)上是一種集中式的數(shù)據(jù)計(jì)算模式,需以各參與方的強(qiáng)信任關(guān)系為前提,將各參與方的數(shù)據(jù)進(jìn)行集中式匯總,并利用集中匯總的數(shù)據(jù)進(jìn)行模型訓(xùn)練。
因該模式將數(shù)據(jù)進(jìn)行了集中匯總,故可進(jìn)行非常復(fù)雜的計(jì)算,具有效率高、網(wǎng)絡(luò)延遲低等優(yōu)勢(shì),但難點(diǎn)在于如何構(gòu)建各參與方的強(qiáng)信任關(guān)系。該模式通過(guò)基于硬件的可信執(zhí)行環(huán)境構(gòu)建參與方的信任關(guān)系,其信任的基礎(chǔ)是對(duì)可信執(zhí)行環(huán)境的信任。目前市場(chǎng)上技術(shù)成熟的廠商主要有IntelSGX,ARMTrustZone等,較容易產(chǎn)生供應(yīng)商鎖定等供應(yīng)鏈安全問(wèn)題。該模式的核心技術(shù)包括機(jī)密計(jì)算的可信執(zhí)行環(huán)境等,輔助技術(shù)包括差分隱私等。
2.可證模式
可證模式,是以安全多方計(jì)算和同態(tài)加密等密碼技術(shù)為核心,支持在無(wú)可信第三方的情況下,各參與方協(xié)同計(jì)算一個(gè)既定函數(shù)的分布式計(jì)算模式。在該計(jì)算模式下,中間數(shù)據(jù)均以密態(tài)呈現(xiàn)。所謂“可證”是指數(shù)據(jù)的運(yùn)算態(tài)或結(jié)果態(tài)的安全性可由其使用的密碼算法的理論安全性來(lái)證明提供。
該模式的優(yōu)勢(shì)是其采用基于密碼學(xué)的安全多方計(jì)算和同態(tài)加密等技術(shù),憑借其堅(jiān)實(shí)的理論基礎(chǔ)和可證明的安全性,獲得了較強(qiáng)的安全性保障。但是由于該模式包含復(fù)雜的密碼學(xué)操作,實(shí)現(xiàn)相關(guān)技術(shù)需要付出較大的性能代價(jià),對(duì)性能提出了嚴(yán)峻的挑戰(zhàn)。對(duì)于一些計(jì)算復(fù)雜度較低的場(chǎng)景,該模式已取得良好的應(yīng)用效果。該模式的核心技術(shù)包括安全多方計(jì)算、同態(tài)加密等,輔助技術(shù)包括可信執(zhí)行環(huán)境、差分隱私等。
3.可度量模式
可度量模式,是以差分隱私技術(shù)為核心,可對(duì)數(shù)據(jù)計(jì)算過(guò)程中的隱私泄露風(fēng)險(xiǎn)進(jìn)行量化評(píng)估的數(shù)據(jù)流通模式,該技術(shù)通常與聯(lián)邦學(xué)習(xí)等其他技術(shù)結(jié)合使用。例如,在聯(lián)邦學(xué)習(xí)中,中心節(jié)點(diǎn)需對(duì)各方模型更新的中間結(jié)果進(jìn)行聚合,但此過(guò)程中存在數(shù)據(jù)重構(gòu)時(shí)的攻擊風(fēng)險(xiǎn)。差分隱私可在各方數(shù)據(jù)出域前,通過(guò)施加隨機(jī)噪聲的方式保護(hù)中間結(jié)果,并度量這些噪聲帶來(lái)的隱私保護(hù)效果。
該技術(shù)的優(yōu)勢(shì)是能夠?qū)崿F(xiàn)隱私風(fēng)險(xiǎn)的量化評(píng)估,但是會(huì)對(duì)數(shù)據(jù)的精度形成不可忽略的影響,因此對(duì)精度要求較高的場(chǎng)景需酌情使用。該模式的核心技術(shù)包括差分隱私、聯(lián)邦學(xué)習(xí)等,輔助技術(shù)包括可信執(zhí)行環(huán)境、安全多方計(jì)算、同態(tài)加密等。
(三)基于隱私保護(hù)計(jì)算技術(shù)的數(shù)據(jù)流通場(chǎng)景
基于當(dāng)前隱私保護(hù)計(jì)算技術(shù)的應(yīng)用場(chǎng)景,其數(shù)據(jù)的流通場(chǎng)景主要包含單數(shù)據(jù)方的主動(dòng)開放、無(wú)數(shù)據(jù)方的申請(qǐng)使用以及多數(shù)據(jù)方間的聯(lián)合計(jì)算(如表2所示)。
一是單數(shù)據(jù)擁有方主動(dòng)開放數(shù)據(jù)。通常為公共管理和服務(wù)機(jī)構(gòu)對(duì)符合開放條件的公共數(shù)據(jù)進(jìn)行開放。為保障數(shù)據(jù)安全及個(gè)人隱私,在對(duì)數(shù)據(jù)進(jìn)行脫敏處理或使用差分隱私等技術(shù)時(shí)往往會(huì)給數(shù)據(jù)加入噪聲。如美國(guó)人口普查局會(huì)在發(fā)布人口數(shù)據(jù)時(shí)使用差分隱私技術(shù)進(jìn)行保護(hù)處理,在保證數(shù)據(jù)的統(tǒng)計(jì)信息的基礎(chǔ)上,避免泄露詳細(xì)的個(gè)人信息,保障了數(shù)據(jù)和個(gè)人隱私的安全。
二是無(wú)數(shù)據(jù)方申請(qǐng)使用數(shù)據(jù)擁有方的數(shù)據(jù)。在此場(chǎng)景下,無(wú)數(shù)據(jù)方需向數(shù)據(jù)擁有方提供查詢條件,數(shù)據(jù)擁有方根據(jù)查詢條件進(jìn)行查詢并反饋相關(guān)結(jié)果。借助隱私保護(hù)計(jì)算技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)庫(kù)數(shù)據(jù)及查詢條件的“雙盲”,以此保護(hù)數(shù)據(jù)和個(gè)人隱私的安全。相關(guān)的支撐技術(shù)包括隱私集合求交PSI和隱私信息檢索PIR等。
三是多數(shù)據(jù)擁有方聯(lián)合計(jì)算。兩個(gè)或多個(gè)機(jī)構(gòu)之間基于某種業(yè)務(wù)需求,將各方數(shù)據(jù)進(jìn)行聯(lián)合計(jì)算和分析。該類跨機(jī)構(gòu)進(jìn)行數(shù)據(jù)聯(lián)合計(jì)算的場(chǎng)景是當(dāng)前業(yè)界研究和應(yīng)用最多的場(chǎng)景