人工智能時代興起,數(shù)據(jù)資源成為維持相關(guān)產(chǎn)業(yè)的基礎(chǔ)原料,是否能夠獲取相關(guān)海量數(shù)據(jù)能力成為制約產(chǎn)業(yè)發(fā)展重要因素。然而,由于數(shù)據(jù)安全問題、競爭關(guān)系等因素,數(shù)據(jù)在各個行業(yè)甚至公司的內(nèi)部以“數(shù)據(jù)孤島”的形式存在,隨著數(shù)據(jù)隱私安全問題突出,國家管控越來越嚴(yán)格,先后發(fā)布《網(wǎng)絡(luò)安全法》等法律法規(guī),在社會層面上,用戶對個人隱私數(shù)據(jù)越發(fā)重視。以往科技巨頭它們通過提供基于云的AI解決方案以及API,獲取大量高質(zhì)量的業(yè)務(wù)和個人數(shù)據(jù)模式,在未來發(fā)展中可能受到極大的限制。為此,研究如何在保護(hù)隱私和安全的前提下,解決數(shù)據(jù)孤島問題實(shí)現(xiàn)數(shù)據(jù)共享需求越來越突出,隱私計算受到極大重視,聯(lián)邦學(xué)習(xí)應(yīng)運(yùn)而生。
近年來
「數(shù)據(jù)隱私」成為網(wǎng)絡(luò)熱詞??
在大數(shù)據(jù)時代,
數(shù)據(jù)的流通和共享
為社會發(fā)展創(chuàng)造了巨大價值??
但被泄露的個人隱私不在少數(shù),
人們對企業(yè)的信任日益走低??
......
那么有沒有一種技術(shù),
在安全合規(guī)、保障用戶隱私的前提下,
讓企業(yè)“看不見”數(shù)據(jù),
也能利用數(shù)據(jù)創(chuàng)造價值、提供高效服務(wù)呢?
魚和熊掌能否兼得?
隱私計算或許是一個答案??
本期Labs和大家聊聊
隱私計算中聯(lián)邦學(xué)習(xí)的那些事兒~
Part 01
●隱私計算技術(shù)概念●
隱私計算涉及多方技術(shù)主要包括機(jī)器學(xué)習(xí),分布式機(jī)器學(xué)習(xí),密碼學(xué)(同態(tài)加密,差分隱私等),安全多方計算,以及聯(lián)邦學(xué)習(xí)等多種不同的技術(shù)。
機(jī)器學(xué)習(xí)是專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機(jī)具有智能的根本途徑。
分布式機(jī)器學(xué)習(xí)是一個由參數(shù)服務(wù)器將數(shù)據(jù)存儲在分布式工作節(jié)點(diǎn)上,通過中央調(diào)度節(jié)點(diǎn)分配數(shù)據(jù)和計算資源的機(jī)器學(xué)習(xí)框架,較集中式機(jī)器學(xué)習(xí)框架運(yùn)算效率提高,更加適合大批數(shù)據(jù)建模。
多方安全計算是一個滿足沒有信任第三方情況下,互不信任參與方在保護(hù)各自隱私信息前提下協(xié)同建模的機(jī)器學(xué)習(xí)框架。這個框架能夠同時確保輸入的隱私性安全性和計算的正確性。
同態(tài)加密是一類具有特殊屬性的加密方法,與一般加密算法相比,同態(tài)加密除了能實(shí)現(xiàn)基本的加密操作之外,還能實(shí)現(xiàn)密文間的多種計算功能,即先計算后解密可等價于先解密后計算。
差分隱私是密碼學(xué)中的一種手段,簡單地說,就是通過添加噪音在保留統(tǒng)計學(xué)特征的前提下去除個體特征以保護(hù)用戶隱私。
聯(lián)邦學(xué)習(xí),又名聯(lián)邦機(jī)器學(xué)習(xí),聯(lián)合學(xué)習(xí),聯(lián)盟學(xué)習(xí),由谷歌公司于2016年最先提出,最初是用于解決安卓手機(jī)終端用戶在本地更新輸入法中的頻繁詞模型的問題,其設(shè)計目標(biāo)是在保障大數(shù)據(jù)交換時的信息安全、保護(hù)終端數(shù)據(jù)和個人數(shù)據(jù)隱私、保證合法合規(guī)的前提下,在多參與方或多計算結(jié)點(diǎn)之間開展高效率的機(jī)器學(xué)習(xí).主要解決的問題就是,數(shù)據(jù)擁有方不出本地前提下,構(gòu)建共有模型。聯(lián)邦學(xué)習(xí)可以從技術(shù)上解決數(shù)據(jù)孤島問題,讓每一個參與方隱私數(shù)據(jù)在不用交換原始數(shù)據(jù)情況下,僅僅交換加密的模型參數(shù),完成模型的建立的一種框架。聯(lián)邦學(xué)習(xí)可使用的機(jī)器學(xué)習(xí)算法包括邏輯回歸、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等,有望成為下一代人工智能協(xié)同算法和協(xié)作網(wǎng)絡(luò)的基礎(chǔ)。
隱私計算相關(guān)技術(shù)之間的關(guān)系可參見如下示意圖:
Part 02
●聯(lián)邦學(xué)習(xí)技術(shù)特征與分類●
-技術(shù)特征
1.各方數(shù)據(jù)都保留在本地,不泄露隱私也不違反法規(guī);
2.在聯(lián)邦學(xué)習(xí)的體系下,各個參與者的身份和地位相同;
3.聯(lián)邦學(xué)習(xí)的建模效果和將整個數(shù)據(jù)集放在一處建模的效果相同,或相差不大;
4.各個參與者聯(lián)合數(shù)據(jù)建立虛擬的共有模型,并且共同獲益的體系。
-技術(shù)分類
1.橫向聯(lián)邦
各方業(yè)務(wù)場景相似,用戶重合度低,特征重合度高
2.縱向聯(lián)邦
各方特征重合度較低,用戶重合度較高
3.聯(lián)邦遷移
各方特征重合度較低,用戶重合度較低
Part 03
●聯(lián)邦學(xué)習(xí)技術(shù)應(yīng)用場景●
根據(jù)聯(lián)邦學(xué)習(xí)的應(yīng)用領(lǐng)域及面向服務(wù)的受眾對象,可將聯(lián)邦學(xué)習(xí)的典型應(yīng)用場景分為:面向個人用戶(2C)、面向行業(yè)用戶(2B)。
面向個人用戶主要是基于個人終端隱私數(shù)據(jù)保護(hù)情況下的數(shù)據(jù)共享和協(xié)同的應(yīng)用場景,比如Google輸入法所采用的分布式建模應(yīng)用。
面向行業(yè)用戶主要是圍繞企業(yè)內(nèi)部以及跨公司跨行業(yè)的數(shù)據(jù)聯(lián)合建模應(yīng)用場景。