隱私計(jì)算應(yīng)“數(shù)據(jù)孤島”而生,或?qū)⒊蔀獒尫艛?shù)據(jù)價值的一個答案,只有建久安之勢,才能成長治之業(yè)。
當(dāng)前,與傳統(tǒng)的資本、土地、勞動、技術(shù)等一樣,數(shù)據(jù)已成為重要生產(chǎn)要素之一。其與算力、算法組合,作為一種新型社會生產(chǎn)力,在人們的生產(chǎn)生活中發(fā)揮顯著作用。越來越多的業(yè)務(wù)場景需要多方數(shù)據(jù)的流通和共享。
然而,即便社會各界高度認(rèn)同數(shù)據(jù)生產(chǎn)要素的重要意義,但合理挖掘、釋放和使用數(shù)據(jù)要素所蘊(yùn)含的巨大價值,依然需要克服橫亙在人們面前的,亟待解決的客觀難題。
一方面,在現(xiàn)實(shí)世界中,受制于數(shù)據(jù)的分散性、低復(fù)制成本以及價值聚合性,數(shù)據(jù)仍呈高度分散的狀況,“數(shù)據(jù)孤島”十分明顯;另一方面,蘊(yùn)藏著巨大價值的數(shù)據(jù)能夠以極低的成本復(fù)制和無限使用,這種“野蠻掘金”的誘惑導(dǎo)致了各種各樣數(shù)據(jù)泄露、盜用、濫用等問題案件的發(fā)生。
為克服這兩大難題,隱私計(jì)算應(yīng)運(yùn)而生。
雙重需求驅(qū)動隱私計(jì)算
隱私計(jì)算,廣義上是指面向隱私保護(hù)的計(jì)算系統(tǒng)與技術(shù),涵蓋數(shù)據(jù)的產(chǎn)生、存儲、計(jì)算、應(yīng)用、銷毀等信息流程全過程,以期達(dá)成使數(shù)據(jù)在各個環(huán)節(jié)中“可用不可見”的效果。正如上述,隱私計(jì)算的興起和發(fā)展源于數(shù)據(jù)融合和隱私保護(hù)的雙重需求驅(qū)動。
從數(shù)據(jù)融合來看,當(dāng)前,數(shù)據(jù)流通不暢已成為制約我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要問題。數(shù)據(jù)擁有者出于數(shù)據(jù)安全保密的顧慮而不愿共享數(shù)據(jù),使得不同企業(yè)、不同機(jī)構(gòu)間難以利用對方的數(shù)據(jù)進(jìn)行聯(lián)合分析或建模。
究其原因,數(shù)據(jù)具有分散性、低復(fù)制成本以及價值聚合性,分散性是數(shù)據(jù)持續(xù)不斷地從各個途徑產(chǎn)生,來源分散,缺乏數(shù)據(jù)授權(quán)、獲取、存儲、傳輸、驗(yàn)證及共享等交互標(biāo)準(zhǔn);分散性疊加數(shù)據(jù)極低的復(fù)制成本,使得很多情況下,各個數(shù)據(jù)所有方不愿意、不能夠共享數(shù)據(jù)。
因?yàn)橐坏┓窒?,就失去了對?shù)據(jù)的控制權(quán),加上數(shù)據(jù)互聯(lián)互通的成本較高,這就形成了“數(shù)據(jù)孤島”。即使數(shù)據(jù)能聯(lián)通,它們的可信程度也存有疑問。同時,數(shù)據(jù)又具有價值聚合性,即單一數(shù)據(jù)源的價值有限,多維數(shù)據(jù)、海量數(shù)據(jù)的聯(lián)合應(yīng)用的價值更高。
于是,數(shù)據(jù)的分散性、低復(fù)制成本以及價值聚合性,不斷構(gòu)成矛盾——數(shù)據(jù)需要聚合才能有價值,但數(shù)據(jù)卻分散成一個個“孤島”。
基于此,隱私計(jì)算作為一種由兩個或多個參與方聯(lián)合計(jì)算的技術(shù)和系統(tǒng),參與方可以在不泄露各自數(shù)據(jù)的前提下通過協(xié)作對他們的數(shù)據(jù)進(jìn)行聯(lián)合機(jī)器學(xué)習(xí)和聯(lián)合分析。隱私計(jì)算的參與方既可以是同一機(jī)構(gòu)的不同部門,也可以是不同的機(jī)構(gòu)。在隱私計(jì)算框架下,參與方的數(shù)據(jù)不出本地,在保護(hù)數(shù)據(jù)安全的同時實(shí)現(xiàn)多源數(shù)據(jù)跨域合作,可以破解數(shù)據(jù)保護(hù)與融合應(yīng)用難題。
對于隱私保護(hù)來說,數(shù)字經(jīng)濟(jì)時代下,數(shù)據(jù)作為生產(chǎn)要素的重要性日益凸顯,加之?dāng)?shù)據(jù)的頻繁泄露,數(shù)據(jù)隱私安全成了時下亟待解決之痛。當(dāng)前,從信息處理過程中的隱私保護(hù)方法來看,隱私保護(hù)主要分為訪問控制技術(shù)方法、信息混淆技術(shù)方法、密碼學(xué)技術(shù)方法等三類。
但無論是訪問控制技術(shù)方法、信息混淆技術(shù)方法、密碼學(xué)技術(shù)方法的隱私保護(hù)方案都主要是針對特定場景局部數(shù)據(jù)集的具體算法,缺少針對特定場景動態(tài)數(shù)據(jù)集的算法框架,更缺少適應(yīng)多場景動態(tài)數(shù)據(jù)集的普適性算法框架。
此外,針對多媒體數(shù)據(jù)需要多個隱私保護(hù)算法的組合,而目前也缺少成熟的方案。將不同隱私保護(hù)算法互相疊加以獲得更好保護(hù)效果的方法則仍待開展研究。簡單來說,現(xiàn)有的隱私保護(hù)以及隱私度量方案零散孤立,還缺乏隱私信息操作審計(jì)和約束條件的形式化描述方法。
尚未有將隱私保護(hù)與隱私侵犯取證追蹤一體化考慮的方案,無法構(gòu)建涵蓋信息采集、存儲、處理、發(fā)布(含交換)、銷毀等全生命周期各個環(huán)節(jié)的隱私保護(hù)和隱私侵犯取證追蹤的技術(shù)體系。而隱私計(jì)算則突破了現(xiàn)有隱私保護(hù)的局限,在處理和分析計(jì)算數(shù)據(jù)的過程中能保持?jǐn)?shù)據(jù)不透明、不泄露、無法被計(jì)算方以及其他非授權(quán)方獲取。
不論是數(shù)據(jù)融合還是隱私保護(hù),不論是打通融合多方數(shù)據(jù),創(chuàng)造整合多維數(shù)據(jù)、釋放更大數(shù)據(jù)價值,并保證數(shù)據(jù)的可靠性,隱私計(jì)算都正在成為一個答案。
隱私計(jì)算或成關(guān)鍵技術(shù)
隱私計(jì)算是面向隱私信息全生命周期保護(hù)的計(jì)算理論和方法。
具體來說,作為面向隱私信息全生命周期保護(hù)的計(jì)算理論和方法,隱私計(jì)算是在處理視頻、音頻、圖像、圖形、文字、數(shù)值、泛在網(wǎng)絡(luò)行為信息流等信息時,對所涉及的隱私信息進(jìn)行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標(biāo)準(zhǔn)的隱私計(jì)算理論、算法及應(yīng)用技術(shù),支持多系統(tǒng)融合的隱私信息保護(hù)。
隱私計(jì)算涵蓋了信息所有者、搜集者、發(fā)布者和使用者在信息采集、存儲、處理、發(fā)布(含交換)、銷毀等全生命周期過程的所有計(jì)算操作,是隱私信息的所有權(quán)、管理權(quán)和使用權(quán)分離時隱私描述、度量、保護(hù)、效果評估、延伸控制、隱私泄漏收益損失比、隱私分析復(fù)雜性等方面的可計(jì)算模型與公理化系統(tǒng)。
2019年,《UN Handbook on Privacy-Preserving Computation Techniques》中提到,隱私保護(hù)計(jì)算是在提供隱私保護(hù)的前提下,實(shí)現(xiàn)數(shù)據(jù)價值挖掘的技術(shù)體系。也就是說,隱私保護(hù)計(jì)算并不是一種單一的技術(shù),它是一套包含人工智能、密碼學(xué)、數(shù)據(jù)科學(xué)等眾多領(lǐng)域交叉融合的跨學(xué)科技術(shù)體系,并在實(shí)踐過程中,實(shí)現(xiàn)數(shù)據(jù)的“可用不可見”。
從技術(shù)理論來看,隱私數(shù)據(jù)主要分為密碼學(xué)和可信硬件兩大領(lǐng)域。密碼學(xué)的技術(shù)目前以多方安全計(jì)算(MPC)為代表。多方安全計(jì)算技術(shù)核心思想是設(shè)計(jì)特殊的加密算法和協(xié)議,從而支持在加密數(shù)據(jù)之上直接進(jìn)行計(jì)算。目前MPC通過秘密分割、不經(jīng)意傳輸、混淆電路或同態(tài)加密等專門技術(shù)實(shí)現(xiàn),通用性相對較低、性能處于中等水平,但近年來性能提升迅速、應(yīng)用價值極高。
可信硬件技術(shù)目前主要指可信執(zhí)行環(huán)境(TEE),其核心思想是構(gòu)建一個硬件安全區(qū)域,數(shù)據(jù)僅在該安全區(qū)域內(nèi)進(jìn)行計(jì)算??尚艌?zhí)行環(huán)境(TEE)通過硬件技術(shù)來對數(shù)據(jù)進(jìn)行隔離保護(hù),將數(shù)據(jù)分類處理。支持TEE的CPU中,會有一個特定的區(qū)域,該區(qū)域的作用是給數(shù)據(jù)和代碼的執(zhí)行提供一個更安全的空間,并保證它們的機(jī)密性和完整性。
TEE將信任機(jī)制交給硬件方(Intel的SGX、ARM的TrustZone、AMD的SEV等產(chǎn)品),嚴(yán)格來講并不屬于“數(shù)據(jù)可用不可見”,但其通用性高、開發(fā)難度低,使得在數(shù)據(jù)保護(hù)要求不是特別嚴(yán)苛的場景下存在價值發(fā)揮的可能。
此外,國內(nèi)外還衍生出了聯(lián)邦學(xué)習(xí)、共享學(xué)習(xí)、知識聯(lián)邦、聯(lián)邦智能等一系列“聯(lián)邦學(xué)習(xí)類”技術(shù)。這類技術(shù)以實(shí)現(xiàn)機(jī)器學(xué)習(xí)、數(shù)據(jù)建模、數(shù)據(jù)預(yù)測分析等具體場景為目標(biāo),通過對上述技術(shù)加以改進(jìn)融合,并在算法層面進(jìn)行調(diào)整優(yōu)化而實(shí)現(xiàn)。
其聯(lián)邦學(xué)習(xí)作為近些年新崛起的新興人工智能技術(shù),在2016年由谷歌最先提出。其設(shè)計(jì)目標(biāo)是在保障大數(shù)據(jù)交換時的信息安全、保護(hù)終端數(shù)據(jù)和個人數(shù)據(jù)隱私、保證合法合規(guī)的前提下,在多個參與方或多個計(jì)算節(jié)點(diǎn)之間開展高效率的機(jī)器學(xué)習(xí)。
隱私計(jì)算不泄露原始數(shù)據(jù),可以在保護(hù)數(shù)據(jù)安全的前提下實(shí)現(xiàn)數(shù)據(jù)多元跨域融合,有助于破解數(shù)據(jù)保護(hù)與利用之間的矛盾。Gartner在2019年技術(shù)成熟度曲線報告中首次將隱私計(jì)算(其稱為機(jī)密計(jì)算)列為處于啟動期的關(guān)鍵技術(shù)。世界經(jīng)濟(jì)論壇也在2019年9月發(fā)布的白皮書中認(rèn)為,隱私計(jì)算技術(shù)將成為釋放金融服務(wù)行業(yè)新價值的關(guān)鍵技術(shù)。
建久安之勢,成長治之業(yè)
近兩年來,伴隨著技術(shù)的不斷成熟,國內(nèi)外隱私計(jì)算產(chǎn)業(yè)化應(yīng)用的步伐明顯加快。
國外隱私計(jì)算技術(shù)產(chǎn)品創(chuàng)新活躍,但仍處于發(fā)展初期。從整體發(fā)展情況來看,國外的隱私計(jì)算產(chǎn)品形態(tài)仍處于較為初步的階段,未形成產(chǎn)業(yè)生態(tài)圈,也尚未形成壟斷格局。
2019年以來,國外科技巨頭快速布局隱私計(jì)算產(chǎn)業(yè)。2019年4月微軟新發(fā)布的兩項(xiàng)專利申請表明,其正考慮在擬推出的區(qū)塊鏈產(chǎn)品中使用TEE。2019年8月,谷歌發(fā)布消息稱,將推出新型MPC開源庫,以隱私安全的方式進(jìn)行數(shù)據(jù)協(xié)作。麻省理工學(xué)院背景的初創(chuàng)公司Enigma也推出了基于MPC的新加密系統(tǒng)。
在國內(nèi),從2018年開始,無論是BAT等大廠,還是成熟的大數(shù)據(jù)公司,或是初創(chuàng)型科技企業(yè),也已接連入局隱私計(jì)算。螞蟻金服、騰訊云、百度在2019年紛紛推出了各自的MPC產(chǎn)品。阿里巴巴、微眾銀行、京東等企業(yè)也在各自的技術(shù)領(lǐng)域形成一定優(yōu)勢。
目前,各互聯(lián)網(wǎng)巨頭企業(yè)均在隱私計(jì)算領(lǐng)域加快布局,形成跨業(yè)務(wù)、多團(tuán)隊(duì)、強(qiáng)支撐的發(fā)展態(tài)勢。此外,華控清交、富數(shù)科技、矩陣元、數(shù)牘科技、锘崴科技、光之樹科技、零知識科技等一批專注于隱私計(jì)算產(chǎn)品化的初創(chuàng)企業(yè)也不斷涌現(xiàn)。諸多區(qū)塊鏈企業(yè)、數(shù)據(jù)安全企業(yè)、金融風(fēng)控企業(yè)、電信企業(yè)等也紛紛擁抱隱私計(jì)算技術(shù)。
資本市場也動作頻頻,成立不到兩年的華控清交已完成多輪融資,投資方包括清華大學(xué)、中國互聯(lián)網(wǎng)金融協(xié)會、北京市海淀區(qū)創(chuàng)業(yè)扶持基金、香港交易及結(jié)算所有限公司(港交所)、聯(lián)想集團(tuán)和高榕資本等??梢哉f,在大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展的牽引下,我國隱私計(jì)算技術(shù)產(chǎn)品正在逐步成熟、應(yīng)用場景快速擴(kuò)充。
盡管隱私計(jì)算被市場廣泛看好,但從技術(shù)研究、產(chǎn)品開發(fā)、實(shí)際應(yīng)用落地到最后商業(yè)化,隱私計(jì)算產(chǎn)業(yè)在走向成長的過程中依然面臨著一系列問題和影響因素,進(jìn)而制約了大范圍推廣和商業(yè)化進(jìn)程。
首先,技術(shù)和解決方案還不夠完全成熟,與客戶的需求有一定差距。隱私計(jì)算的技術(shù)效率還有待進(jìn)一步提升。比如,MPC和聯(lián)邦學(xué)習(xí)技術(shù)都受制于網(wǎng)絡(luò)傳輸?shù)膸挕⑼ㄐ潘俾屎途W(wǎng)絡(luò)穩(wěn)定性,計(jì)算和建模效率尚不夠令人滿意;同態(tài)加密的計(jì)算有嚴(yán)重的性能瓶頸。
由于計(jì)算效率和安全性等問題,現(xiàn)有系統(tǒng)產(chǎn)品還比較復(fù)雜,工程化程度還不夠完善,會產(chǎn)生一定維護(hù)成本,但客戶對復(fù)雜系統(tǒng)的維護(hù)費(fèi)用支付意愿較弱,可是單純售賣系統(tǒng)的毛利較低甚至不足以覆蓋成本。
其次,技術(shù)的安全可靠性有待提高,且目前缺乏可靠的技術(shù)標(biāo)準(zhǔn)認(rèn)定,導(dǎo)致客戶對采納技術(shù)有疑慮。也就是說,隱私計(jì)算的技術(shù)效果和安全性仍然不夠讓人信服。TEE技術(shù)因?yàn)橹行幕尚懦潭群陀布陌踩浴⒁蕾囆?、?nèi)存容量等問題而飽受質(zhì)疑;聯(lián)邦學(xué)習(xí)需要模型梯度傳遞,但梯度也有可能泄露一些信息;差分隱私的計(jì)算結(jié)果準(zhǔn)確度有較大不確定性。
在這種情況下,國家缺乏明確的監(jiān)管文件和技術(shù)標(biāo)準(zhǔn)認(rèn)可隱私計(jì)算的安全可靠性。所以,很多客戶都對如何證明技術(shù)的安全合理性有疑慮,只能在小范國內(nèi)測試和監(jiān)管沙箱內(nèi)應(yīng)用。
其三,現(xiàn)有法律法規(guī)未對隱私計(jì)算地位進(jìn)行明確定位。例如,《中華人民共和國網(wǎng)絡(luò)安全法》中規(guī)定“未經(jīng)被收集者同意,網(wǎng)絡(luò)運(yùn)營者不得向他人提供個人信息”,同時設(shè)置了“經(jīng)過處理無法識別特定個人且不能復(fù)原”的例外條款。將個人信息用于隱私計(jì)算是否屬于這一例外條款,法律法規(guī)及相關(guān)標(biāo)準(zhǔn)等并無明確界定。
然而,由于隱私計(jì)算僅僅避免了原始數(shù)據(jù)轉(zhuǎn)移的過程,但仍然完成了基于多方數(shù)據(jù)的計(jì)算,使得其在某種程度上依然破壞了消費(fèi)者的隱私。這正在成為制約隱私計(jì)算發(fā)展的無法回避的問題。
最后,市場對于隱私計(jì)算的認(rèn)知度、認(rèn)可度仍然不足。市場需求尚未充分展現(xiàn),還缺乏明確的拉動性政策和標(biāo)桿性示范項(xiàng)目。此外,很多行業(yè)的數(shù)字化程度低,數(shù)據(jù)管理方式較為粗放,尚未建立成熟的數(shù)據(jù)管理體系,制約了數(shù)據(jù)價值挖掘的需求。
隱私計(jì)算是服務(wù)于數(shù)據(jù)的技術(shù),為滿足數(shù)據(jù)分享流通的需求而生也為解決該需求與隱私保護(hù)等監(jiān)管規(guī)制的矛盾而生。但在前幾年,技術(shù)的擴(kuò)散主要依靠廠商自行推動,宏觀環(huán)境上缺乏打開市場需求的助力。
在數(shù)字時代,數(shù)據(jù)的重要性不言而喻。隨著各行各業(yè)的數(shù)字化深入,數(shù)據(jù)的融合應(yīng)用也成為一個重要趨勢。在這個過程中,如何打破數(shù)據(jù)孤島的壁壘,實(shí)現(xiàn)數(shù)據(jù)共享,也是整個行業(yè)亟待解決的難題。隱私計(jì)算應(yīng)運(yùn)而生,或?qū)⒊蔀獒尫艛?shù)據(jù)價值的一個答案。因此,只有建久安之勢,才能成長治之業(yè)。