誰能建立隱私計(jì)算的“分布式數(shù)據(jù)湖”?

未來區(qū)塊鏈
據(jù)存儲在數(shù)據(jù)庫里并不能直接產(chǎn)生價值,只有經(jīng)過數(shù)據(jù)訓(xùn)練才有價值,也就是數(shù)據(jù)要有為深度學(xué)習(xí)、聯(lián)邦學(xué)習(xí)服務(wù)的能力,而數(shù)據(jù)湖是這個路徑里的必然選項(xiàng),基于去中心化模型里,會出現(xiàn)新的“分布式數(shù)據(jù)湖”。

QQ截圖20210630142014.png

在信息時代裸奔,我們總會被數(shù)據(jù)挾持、出賣。因?yàn)槟愕臄?shù)據(jù)不屬于你。

時下,是應(yīng)該聊聊數(shù)據(jù)和隱私的時候了。

2019年末,我曾把零知識證明、多方計(jì)算、可信執(zhí)行環(huán)境等隱私計(jì)算技術(shù)的代表項(xiàng)目匯聚到一起做了一期極為深度的討論。

那時,在區(qū)塊鏈產(chǎn)業(yè)分布里已經(jīng)有了隱私賽道,有少數(shù)項(xiàng)目在研究、拓展、嘗試,只是對于隱私、隱私計(jì)算以及數(shù)據(jù)等維度并沒有那么清晰的判斷。

把時間線放的更長一些,從2018年至今,我們其實(shí)看到了隱私項(xiàng)目向隱私計(jì)算的迭代(兩個技術(shù)標(biāo)簽很早就存在,但行業(yè)關(guān)注點(diǎn)有了迭代),這一現(xiàn)象代表了一些技術(shù)的發(fā)展和應(yīng)用的趨向性。

在對這些項(xiàng)目分析解構(gòu),對市場需求進(jìn)行考證后,筆者認(rèn)為此時該提出一個有效的觀點(diǎn)。

即:當(dāng)今的區(qū)塊鏈隱私計(jì)算項(xiàng)目里,誰想拿下隱私計(jì)算第一槍,要率先建立隱私計(jì)算的“分布式數(shù)據(jù)湖”。

原因很簡單:數(shù)據(jù)存儲在數(shù)據(jù)庫里并不能直接產(chǎn)生價值,只有經(jīng)過數(shù)據(jù)訓(xùn)練才有價值,也就是數(shù)據(jù)要有為深度學(xué)習(xí)、聯(lián)邦學(xué)習(xí)服務(wù)的能力,而數(shù)據(jù)湖是這個路徑里的必然選項(xiàng),基于去中心化模型里,會出現(xiàn)新的“分布式數(shù)據(jù)湖”。

本文里,我會為這個名詞開個腦洞,在符合邏輯推演的范圍內(nèi)為大家闡述一個框架。但這種模型目前并未有非常成熟的案例,如有偏頗,歡迎各位指證。

先談一談什么叫數(shù)據(jù)湖

數(shù)據(jù)湖的概念,來自大數(shù)據(jù)和機(jī)器學(xué)習(xí)業(yè)務(wù)。

我們?nèi)粘R欢犨^數(shù)據(jù)庫,數(shù)據(jù)庫的形式可大可小,是非常獨(dú)立的數(shù)據(jù)存儲單位,每個數(shù)據(jù)存儲位置都是一個數(shù)據(jù)庫,當(dāng)數(shù)據(jù)庫之間被打通,形成一個大數(shù)據(jù)交互結(jié)構(gòu),就可以理解為數(shù)據(jù)湖的形象。

筆者在亞馬遜的AWS Lake Formation服務(wù)定義里查到了數(shù)據(jù)湖的名詞定義:

數(shù)據(jù)湖是一個安全的集中式輔助存儲庫,它以數(shù)據(jù)原始形式和可用于分析的形式存儲所有數(shù)據(jù)。利用數(shù)據(jù)湖,可以分解數(shù)據(jù)孤島并組合不同類型進(jìn)行分析,獲得分析結(jié)果指導(dǎo)更好的業(yè)務(wù)決策。

所以我們可以理解為,當(dāng)若干個原始存儲的數(shù)據(jù)庫連接起來,就是數(shù)據(jù)湖。但這個數(shù)據(jù)湖怎么工作呢?

這一段描述可以粗略看到一些工作需求。

“設(shè)置和管理數(shù)據(jù)湖包括加載來自不同來源的數(shù)據(jù)、監(jiān)控這些數(shù)據(jù)流、設(shè)置分區(qū)、打開加密和管理密鑰、定義轉(zhuǎn)換作業(yè)并監(jiān)控其操作、將數(shù)據(jù)重新組織成列格式、配置訪問控制設(shè)置、刪除冗余數(shù)據(jù)重復(fù)數(shù)據(jù)、匹配鏈接記錄、授予對數(shù)據(jù)集的訪問權(quán)限以及隨時間推移審核訪問權(quán)限。”

所以數(shù)據(jù)湖的主要功能是數(shù)據(jù)的交互,而處理其關(guān)鍵問題是加密和數(shù)據(jù)集的訪問權(quán)限。在我們所期待的去中心化數(shù)據(jù)湖里,似乎也是如此。

再談一談我們期待的去中心化數(shù)據(jù)結(jié)構(gòu)

去中心化的數(shù)據(jù)結(jié)構(gòu),是去中心化的隱私計(jì)算的基礎(chǔ),很簡單,就是數(shù)據(jù)是分散在生產(chǎn)者處,存在于我們的手機(jī)、電腦其他終端設(shè)備里。

當(dāng)然,手機(jī)數(shù)據(jù)大多是有緩存的,有些數(shù)據(jù)是短時存儲,我們所看到的那些互聯(lián)網(wǎng)App收取用戶的數(shù)據(jù),都是其所需要的數(shù)據(jù),而這些數(shù)據(jù)有些實(shí)時產(chǎn)生,在緩存里,有些存儲在本地存儲里。我們雖然在本地可以操作查看,但平臺也可以隨時拿走數(shù)據(jù),因?yàn)樗袡?quán)并非在用戶這里。

在去中心化的數(shù)據(jù)結(jié)構(gòu)里,數(shù)據(jù)在本地存儲,還需要把所有數(shù)據(jù)加密,并且你所使用的App無法獲取你的數(shù)據(jù),除非你主動向App提供交互,或者允許授權(quán)。

這個場景里,我們期待的是:平臺在沒有授權(quán)時是拿不走我們的數(shù)據(jù)的。但這僅代表的是成型的存儲數(shù)據(jù)。而我們有很多的數(shù)據(jù),是需要經(jīng)過中心化服務(wù)器處理的。

例如加入一個社交媒體,我們的用戶名,手機(jī)號,郵箱等等數(shù)據(jù)都是容易暴露的,理想狀態(tài)下,他人對我們選擇不公開的數(shù)據(jù)不可見,而關(guān)鍵的是,平臺也要對數(shù)據(jù)不可見,或者不可用。

這需要平臺具備一些基本的功能,而平臺的功能,一定是其背后開發(fā)功能中的體現(xiàn),這就有關(guān)于我們知道的區(qū)塊鏈項(xiàng)目了,例如賬戶ID具備隱私功能,信息訪問權(quán)限的設(shè)定。

我們看到保護(hù)隱私的區(qū)塊鏈項(xiàng)目,都會在這方面努力。

不過區(qū)塊鏈和加密貨幣有一些天然隱私特性,例如區(qū)塊鏈的歸屬權(quán)、加密貨幣的無需許可以及地址的匿名性。

只是當(dāng)數(shù)據(jù)真的形成一定的體量之后,大部分的業(yè)務(wù)都與生活息息相關(guān),所以匿名性之后會有kyc,kyc后,數(shù)據(jù)的隱私和隱私計(jì)算,無可厚非的成為最重要組成部分。

QQ截圖20210630142014.png

區(qū)塊鏈?zhǔn)澜缋?,誰能建立數(shù)據(jù)湖?

互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)早已和云計(jì)算融合多年,在傳統(tǒng)云計(jì)算里,AI需求的數(shù)據(jù)湖對數(shù)據(jù)的控制已經(jīng)變得很簡單,進(jìn)展到了SaaS級別。

例如上文的AWS Lake Formation其創(chuàng)建過程很簡單,只需定義數(shù)據(jù)源,制定要應(yīng)用的數(shù)據(jù)訪問和安全策略就行。Lake Formation模塊會幫助使用方從數(shù)據(jù)庫和對象存儲中收集并按目錄分類數(shù)據(jù),將數(shù)據(jù)移動到新的數(shù)據(jù)湖里,使用機(jī)器學(xué)習(xí)算法清理和分類數(shù)據(jù),并保護(hù)對敏感數(shù)據(jù)的訪問權(quán)限。

而對外表象是,使用方建立應(yīng)用的用戶可以訪問那些描述了可用數(shù)據(jù)集及其適當(dāng)用法的集中數(shù)據(jù)目錄。然后,用戶可以通過所選的分析和機(jī)器學(xué)習(xí)服務(wù),利用這些數(shù)據(jù)集。

簡而言之,這個邏輯把分布在各處的數(shù)據(jù),最終在數(shù)據(jù)服務(wù)上體現(xiàn)了價值,這是去中心化世界里,很多項(xiàng)目想要實(shí)現(xiàn)的,如果只是簡單的把數(shù)據(jù)控制在用戶手里,那用戶仍只是體驗(yàn)了平臺的服務(wù),而并非將數(shù)據(jù)可以變現(xiàn),雖然說數(shù)據(jù)token化就可能有交易價值,但這種交易價值暴力程度遠(yuǎn)不及在人工智能里實(shí)現(xiàn)的產(chǎn)業(yè)價值。

例如,如果微信去中心化了,我們在微信的行為數(shù)據(jù)就再也不會直接拿走被利用到廣點(diǎn)通里,你的朋友圈里不會出現(xiàn)“你剛剛和其他人說過的”你想買的物品,也不會被粗暴的推薦某些產(chǎn)品。

區(qū)塊鏈項(xiàng)目想實(shí)現(xiàn)這樣的愿景,但發(fā)展之路可能略有曲折。因?yàn)檫@樣的應(yīng)用很難實(shí)現(xiàn)。

我們看到的區(qū)塊鏈項(xiàng)目,除了Defi、Nft這些應(yīng)用層項(xiàng)目,其他都是基礎(chǔ)設(shè)施,而以區(qū)塊鏈的基礎(chǔ)設(shè)施,性能很難完成互聯(lián)網(wǎng)平臺的業(yè)務(wù)需求。

當(dāng)隨著區(qū)塊鏈以及加密貨幣不斷擴(kuò)展,網(wǎng)絡(luò)中的用戶增加,每個地址的關(guān)聯(lián)數(shù)據(jù)也開始增加,所有用戶的數(shù)據(jù)集中呈現(xiàn)了龐大的規(guī)模。這些存在本地的數(shù)據(jù),就也組成了龐大的數(shù)據(jù)集群。

在這基礎(chǔ)之上,能實(shí)現(xiàn)數(shù)據(jù)湖的,并不多。因?yàn)閷?shí)現(xiàn)數(shù)據(jù)湖,需要單獨(dú)的算力、存儲、算法等等。在區(qū)塊鏈項(xiàng)目的設(shè)計(jì)里,這個部分可能需要單獨(dú)的一層網(wǎng)絡(luò),或某一個參與網(wǎng)絡(luò)建設(shè)的角色。

大部分區(qū)塊鏈項(xiàng)目并不能建立這樣的功能,因?yàn)榇蟛糠謪^(qū)塊鏈項(xiàng)目的網(wǎng)絡(luò)只有能力維持Defi項(xiàng)目的運(yùn)行,而缺乏足夠的存儲和計(jì)算能力。

除存儲和算力外,在這基礎(chǔ)設(shè)施里,需要有去中心化的數(shù)據(jù)結(jié)構(gòu),例如以DID為單位的用戶數(shù)據(jù),需要有算力和存儲的經(jīng)濟(jì)模型,還需要有安全的代碼和便于開發(fā)應(yīng)用的中間件。

這些都讓隱私計(jì)算的項(xiàng)目屈指可數(shù)。

當(dāng)然我們這樣判定的前提,是我們所指的隱私計(jì)算,是關(guān)于數(shù)據(jù)的隱私處理。而并非簡單通過合約執(zhí)行的匿名、混幣、交易隱私等等。

在交易處理分層的概念已經(jīng)在加密貨幣項(xiàng)目設(shè)計(jì)里得到共識后,我們期待的是區(qū)塊鏈負(fù)責(zé)數(shù)據(jù)的權(quán)益證明,而其他層控制的算力和存儲,完成隱私計(jì)算。

QQ截圖20210630142014.png

定義一個可實(shí)時的框架

在文章的最后,我們用數(shù)據(jù)湖的最終命題,去推論出一個加密貨幣隱私項(xiàng)目的設(shè)計(jì)框架。通過這個框架,可以部分對比如今市面上的隱私計(jì)算項(xiàng)目。

首先,區(qū)塊鏈為加密貨幣項(xiàng)目提供共識層的總帳本。在這個總帳本里,是所有公開留存的數(shù)據(jù)證明。

接下來,是如何將項(xiàng)目設(shè)計(jì)為具備隱私計(jì)算能力。

從初代的隱私項(xiàng)目看,主要是增加了匿名性和交易隱私,例如具備混幣合約的隱私幣,其可以將合約當(dāng)作一種dapp服務(wù),讓代幣進(jìn)入合約之后的操作無法查詢。這樣的設(shè)計(jì),主要是在鏈上部署合約,可能會使用密碼學(xué)算法或者零知識證明等標(biāo)志性技術(shù),以保證交易過程在不可見的情況下正確執(zhí)行。

而如果是有硬件要求的隱私計(jì)算設(shè)計(jì),那在前文我們所提到的區(qū)塊鏈網(wǎng)絡(luò),其網(wǎng)絡(luò)節(jié)點(diǎn)搭建,就需要特殊的設(shè)備,或者在區(qū)塊鏈共識層外,再次搭建一個由特殊設(shè)備組成的計(jì)算網(wǎng)絡(luò)。

例如通過集合具備TEE計(jì)算區(qū)的硬件設(shè)備連接成網(wǎng),就可以利用TEE保護(hù)區(qū)塊鏈上的交易執(zhí)行、合約執(zhí)行等,TEE是對計(jì)算進(jìn)行的物理保護(hù),有一些獨(dú)特的通信方式,讓可信計(jì)算區(qū)和其他需求點(diǎn)交互。

而如果區(qū)塊鏈網(wǎng)絡(luò)具備MPC等對計(jì)算要求較高的技術(shù)部署,就需要搭建區(qū)塊鏈網(wǎng)絡(luò)的節(jié)點(diǎn)設(shè)備經(jīng)過特殊定制,或者在區(qū)塊鏈共識層外,建立一個layer2計(jì)算、存儲層,將算力和存儲都共享出去,提供數(shù)據(jù)隱私計(jì)算需要的資源。

有趣的是,因?yàn)镸PC很多情況下還是依靠加密算法,為了更周密的隱私部署,MPC和TEE會在非區(qū)塊鏈的可信案例里組合應(yīng)用比較多,而MPC在區(qū)塊鏈項(xiàng)目里,與零知識證明、加密算法融合應(yīng)用比較多。

當(dāng)我們確認(rèn)了有足夠的算力和存儲資源。

一旦需要數(shù)據(jù)湖,如AWS數(shù)據(jù)湖模塊一樣,需要建立數(shù)據(jù)湖,并且定向收集需求點(diǎn)位的數(shù)據(jù),匯集后,對數(shù)據(jù)所有權(quán)進(jìn)行分類,在數(shù)據(jù)湖里,除了數(shù)據(jù)所有權(quán)外,進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練的訓(xùn)練方,數(shù)據(jù)執(zhí)行方等都需要明確對數(shù)據(jù)湖的權(quán)限,例如訓(xùn)練方可能具備管理訓(xùn)練算法的權(quán)限,而其對部分?jǐn)?shù)據(jù)是可用不可見。

數(shù)據(jù)最終的價值表現(xiàn),與數(shù)據(jù)在訓(xùn)練等過程中的作用也需要在數(shù)據(jù)湖的作用中進(jìn)行評估。而這些輔助的計(jì)算都是基本功能,數(shù)據(jù)在數(shù)據(jù)湖的進(jìn)進(jìn)出出都會在區(qū)塊鏈上留下公開的痕跡,以保證所有權(quán)的公平。

最后,當(dāng)技術(shù)上完善之后,就是數(shù)據(jù)變現(xiàn)后的權(quán)益分配,需要對數(shù)據(jù)貢獻(xiàn)進(jìn)行定義,可能需要通證化的量化工作來實(shí)現(xiàn)公平的分配。

以上的參與者,理想狀態(tài)下,是很多方。而將這個模型放小,可能只會關(guān)于如今具備數(shù)據(jù)交叉訓(xùn)練需求的幾方。

因?yàn)榇蟛糠謹(jǐn)?shù)據(jù)的處理難度也是顯而易見的,例如數(shù)據(jù)的清洗、篩選、脫敏等等。

但如果這種模型已經(jīng)成為標(biāo)配,必然會有一個標(biāo)配的經(jīng)濟(jì)模型支持,例如這些資源的消耗需要需求者買單。而數(shù)據(jù)的訓(xùn)練結(jié)果,可能將塑造下一個驚艷的產(chǎn)品。

如果我們只是因?yàn)樽杂蛇x擇區(qū)塊鏈網(wǎng)絡(luò),那你也許會因?yàn)楫a(chǎn)品體驗(yàn)的不自由而離開,但如果你希望可以通過數(shù)據(jù)塑造價值,那必然要等待你的數(shù)據(jù)可以因?yàn)殡[私計(jì)算變得有價值,并且這個價值可以回歸于你自己。

那個時候用戶才不會因?yàn)閿?shù)據(jù)成為待宰羔羊,因?yàn)槟憧梢詫Σ徽J(rèn)可的授權(quán)者say no,拿好你的個人數(shù)據(jù)庫。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論