守住大數(shù)據(jù)這座巴別塔

林建軍
盡管擁有全球最豐富的大數(shù)據(jù)資源,但是中國卻稱不上大數(shù)據(jù)強(qiáng)國。數(shù)據(jù)資源遠(yuǎn)未被充分利用,老百姓尚未充分享受到大數(shù)據(jù)利用的紅利。

數(shù)據(jù)以分布式存在,而非以集中的形態(tài)存在,恐怕不但是一種現(xiàn)實,更是一種不可逆轉(zhuǎn)的發(fā)展趨勢。更好的辦法可能是,數(shù)據(jù)不過來,我們就過去。

有人說,能夠?qū)崿F(xiàn)共享的大數(shù)據(jù)是人類的第二座巴別塔。但目前這座巴別塔似乎處于危險之中。由于安全、隱私及商業(yè)利益等原因,數(shù)據(jù)的收集、融合和共享變得越來越難。數(shù)據(jù)以分布式存在,而非以集中的形態(tài)存在,恐怕不但是一種現(xiàn)實,更是一種不可逆轉(zhuǎn)的發(fā)展趨勢。更好的辦法可能是,數(shù)據(jù)不過來,我們就過去。

數(shù)據(jù)歸集越來越難

盡管擁有全球最豐富的大數(shù)據(jù)資源,但是中國卻稱不上大數(shù)據(jù)強(qiáng)國。數(shù)據(jù)資源遠(yuǎn)未被充分利用,老百姓尚未充分享受到大數(shù)據(jù)利用的紅利。原因可能有三方面,一是80%的數(shù)據(jù)集中在政務(wù)系統(tǒng),還沒有被公眾充分利用;二是數(shù)據(jù)的分布式存在狀態(tài)(或者可以稱為割裂)已成為現(xiàn)實,并將愈演愈烈;三是個人對于數(shù)據(jù)隱私保護(hù)的意識不斷覺醒,數(shù)據(jù)歸集將越來越難,越來越有風(fēng)險。

承認(rèn)吧,數(shù)據(jù)天然就是分布式存在的。歐盟《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,簡稱GDPR)宣稱,數(shù)據(jù)的攜帶權(quán)應(yīng)當(dāng)歸用戶所有。任何應(yīng)用程序都不能理所應(yīng)當(dāng)?shù)卣加糜脩舻臄?shù)據(jù)。當(dāng)前,恐怕也只有行政權(quán)力能夠?qū)?shù)據(jù)劃歸到某一個平臺——然而,這種劃歸的效率也是非常低的——由于無法控制各部門生產(chǎn)和收集數(shù)據(jù)的過程,只能實現(xiàn)數(shù)據(jù)的“物理搬家”;各部門報上來的數(shù)據(jù)的質(zhì)量、時效和口徑良莠不齊;政務(wù)大數(shù)據(jù)平臺在調(diào)取各部門數(shù)據(jù)時,也難以對原始數(shù)據(jù)進(jìn)行及時反饋,指導(dǎo)其改善數(shù)據(jù)質(zhì)量、統(tǒng)一數(shù)據(jù)口徑。因此,“數(shù)據(jù)提供—計算應(yīng)用—改善數(shù)據(jù)”之間的閉環(huán)無法形成。

可以說,當(dāng)前我們的巴別塔難題,已經(jīng)昭然若揭地表現(xiàn)為,數(shù)據(jù)的分布式存在和我們對于集中式計算之間的矛盾。我們已經(jīng)習(xí)慣了數(shù)據(jù)輕易地被歸集到某一平臺,然后由這一平臺進(jìn)行大數(shù)據(jù)運算,得出在商業(yè)上有價值的結(jié)論。而當(dāng)數(shù)據(jù)難以歸集的時候,大數(shù)據(jù)、云計算、人工智能、區(qū)塊鏈這些威力無窮的技術(shù),似乎就無能為力了。

“數(shù)據(jù)孤島”背后的共享困境

人們發(fā)現(xiàn),如果聽由數(shù)據(jù)散落在地,而不是串成珍珠,可能會形成“數(shù)據(jù)孤島”的問題。

比如,如果不打通各個借貸平臺的數(shù)據(jù),多頭借貸、以貸養(yǎng)貸就很難識別出來。數(shù)據(jù)表明,貸款申請者每多申請一家機(jī)構(gòu),違約的概率就上升20%。然而,各家機(jī)構(gòu)并不愿與競爭對手分享用戶數(shù)據(jù)(即使信貸機(jī)構(gòu)有意愿分享,也可能因存在侵犯用戶隱私的風(fēng)險),導(dǎo)致各家機(jī)構(gòu)都成了“數(shù)據(jù)孤島”。一個人在一個平臺上借款后,還可以跑到另一個平臺再借,然后拆東補西,到最后可能連自己都不知道,到底在哪些平臺借了多少錢。

數(shù)據(jù)的打通,有時也是提高某些領(lǐng)域商業(yè)服務(wù)、改善民生的客觀需要。以保險理賠為例。目前,參保人須將所有表單、醫(yī)療收據(jù)、病歷等資料收集齊后,提交或上傳給理賠平臺,周期長、效率低。人們往往在生病治療時捉襟見肘,資金周轉(zhuǎn)不開。許多保險公司希望醫(yī)院能向保險公司共享數(shù)據(jù),建立賠付快速通道。然而,院方考慮到醫(yī)療數(shù)據(jù)安全和患者個人隱私,不愿直接把敏感的醫(yī)療數(shù)據(jù)開放給保險公司。保險公司拿不到數(shù)據(jù),賠付效率無法提升??床‰y,報銷更難的問題始終存在。

一方面,人們需要大數(shù)據(jù)帶來的紅利,另一方面,改變數(shù)據(jù)的占有狀態(tài)又越來越難。前面說過,從有些大數(shù)據(jù)平臺的建設(shè)情況來看,即使用行政力量實現(xiàn)數(shù)據(jù)的強(qiáng)制劃撥,也不過是數(shù)據(jù)的“物理搬家”。當(dāng)然,這絕不是在質(zhì)疑政務(wù)大數(shù)據(jù)平臺建設(shè)的意義。數(shù)據(jù)政務(wù)平臺的建設(shè)當(dāng)然意義重大。除了實現(xiàn)數(shù)據(jù)歸集外,更重要的是向公眾和商業(yè)機(jī)構(gòu)開放。

以前面提到的金融機(jī)構(gòu)為例,如能拿到工商、稅務(wù)、社保等數(shù)據(jù),能顯著提升風(fēng)控能力;商業(yè)地產(chǎn)機(jī)構(gòu)如果能拿到有關(guān)車流、人流的數(shù)據(jù),將有效地提升地產(chǎn)開發(fā)與規(guī)劃設(shè)計的準(zhǔn)確度;制造業(yè)如果能拿到同行業(yè)或上下游的工商、稅務(wù)數(shù)據(jù),也能更精準(zhǔn)地預(yù)判明年的資源投放和行業(yè)格局。然而,受制于數(shù)據(jù)安全和合規(guī)要求,政務(wù)數(shù)據(jù)的開放目前嚴(yán)重滯后于商業(yè)開發(fā)的需求,有的地方只是流于形式。

數(shù)據(jù)不過來,計算就過去

人們需要在不改變數(shù)據(jù)占有狀態(tài)的同時完成對數(shù)據(jù)的利用。早在1982年,圖靈獎唯一華人獲得者姚期智院士就提出了一種解決方案:分布式計算。既然無法改變數(shù)據(jù)分布式的趨勢,那么干脆就把計算也設(shè)計成分布式的。數(shù)據(jù)不過來,計算就過去。也即不改變數(shù)據(jù)的存儲狀態(tài),而是變通利用數(shù)據(jù)的方式。比如說,將數(shù)據(jù)計算的模型分布部署于原始數(shù)據(jù)域內(nèi),在數(shù)據(jù)不出域的情況下進(jìn)行計算,僅輸出結(jié)果,而不獲取原始數(shù)據(jù),確保數(shù)據(jù)安全及用戶隱私得以保障。

以金融機(jī)構(gòu)的信用數(shù)據(jù)查詢?yōu)槔?。有了這一技術(shù),就可以將計算模型部署在原始數(shù)據(jù)域內(nèi),對工商、稅務(wù)、行政處罰等數(shù)據(jù)進(jìn)行提取運算,直接形成有關(guān)用戶的信用數(shù)據(jù),并在此基礎(chǔ)上判斷,能不能借錢給他(她),借多少比較安全,收多少利息合適。然后向外直接輸出結(jié)論,這個客戶有關(guān)的原始數(shù)據(jù)始終保護(hù)得嚴(yán)嚴(yán)實實。同時,計算過程處于密文狀態(tài)下,原始數(shù)據(jù)持有人無從了解模型的計算原理,甚至無法知道哪位客戶的哪些數(shù)據(jù)被調(diào)取進(jìn)行了計算。

再以前面提到的保險快速理賠通道為例。保險公司可以將理賠模型和理算規(guī)則部署在醫(yī)院域的計算節(jié)點上?;颊呔歪t(yī)后產(chǎn)生費用的同時,保險公司就可遠(yuǎn)程在醫(yī)院域內(nèi)利用原始就醫(yī)數(shù)據(jù)進(jìn)行理賠判斷和賠付計算,然后輸出理賠結(jié)果,為理賠作好準(zhǔn)備?;颊呱衔缈赐瓴。挛缇湍苣玫劫r付款。重要的是,利用這一技術(shù),還可以對患者的原始醫(yī)療數(shù)據(jù)進(jìn)行加密。保險公司的模型可以在密文狀態(tài)下對數(shù)據(jù)進(jìn)行處理(從而保護(hù)了其價值連城的模型IP),在保護(hù)醫(yī)院數(shù)據(jù)與患者隱私的前提下,大幅提高理賠效率,解決“就醫(yī)難、理賠更難”的痛點。

或需重構(gòu)數(shù)據(jù)領(lǐng)域法規(guī)

推而廣之,這一技術(shù)或許能夠解決政務(wù)大數(shù)據(jù)平臺建設(shè)的難題。各地在打造大數(shù)據(jù)平臺時,無需將工商、稅務(wù)、民政等部門的數(shù)據(jù)全搬到平臺上,而只需將運算模型或規(guī)則部署在各部門的數(shù)據(jù)域內(nèi)。任何時候需要調(diào)取數(shù)據(jù),直接在相關(guān)域內(nèi)進(jìn)行計算,獲得結(jié)果輸出即可。數(shù)據(jù)不用搬家,原始數(shù)據(jù)方可以實時維護(hù)、實時更新。大數(shù)據(jù)平臺任何時候調(diào)用,都可獲得最新的結(jié)果。

當(dāng)然,模型和數(shù)據(jù)之間也可能不那么適配。那么,一個辦法是不斷調(diào)整和完善計算模型,另一個辦法則是根據(jù)模型的反饋去優(yōu)化數(shù)據(jù)的質(zhì)量。由于計算模型部署在原始數(shù)據(jù)域內(nèi),可以根據(jù)原始數(shù)據(jù)的范圍、口徑、狀態(tài)和更新狀況,對公式和模型不斷進(jìn)行訓(xùn)練和升級,提高查詢的針對性和效率。

另外,模型在調(diào)取數(shù)據(jù)進(jìn)行運算時,也可以實時向原始數(shù)據(jù)部門反饋那些“不稱手”“用不來”的數(shù)據(jù);為其未來對數(shù)據(jù)的收集、整理提供改善建議。這樣的雙向優(yōu)化如果能持續(xù)下去,或許能使建立在數(shù)據(jù)基礎(chǔ)上的政務(wù)治理真正成為可能。

我們來暢想一下,假如未來比想象中來得快,分布式計算成為數(shù)據(jù)共享的主流技術(shù),那么很多法律規(guī)則可能都將發(fā)生改變:

首先,有關(guān)數(shù)據(jù)隱私保護(hù)的重心,可能會從對歸集的規(guī)制,轉(zhuǎn)向?qū)Ψ植紖f(xié)議達(dá)成是否自愿、平等和信息對稱的關(guān)注(特別是考慮到原始數(shù)據(jù)持有人可能是分散的個體,而部署計算模型的平臺可能是強(qiáng)大的平臺,雙方難以進(jìn)行平等談判)。

其次,由于原始數(shù)據(jù)不會出域,而是留在數(shù)據(jù)持有人手中,屆時每個人的云端賬戶可能都需要配備足夠安全的“鎖”,既防君子又防小人。

第三,數(shù)字資產(chǎn)的歸屬問題很可能會從原始數(shù)據(jù)的權(quán)屬,轉(zhuǎn)向通過分布式計算得出結(jié)論所產(chǎn)生的商業(yè)利益的分配(同樣,由于難以進(jìn)行平等對話,因而可能需要建立最低的分配比例標(biāo)準(zhǔn))。

最后是法律責(zé)任追究問題。如果數(shù)據(jù)共享的方式已經(jīng)發(fā)生了變化,那么違法侵權(quán)行為的構(gòu)成要件顯然也會發(fā)生巨大變化。

總體看來,如果分布式計算更多地被應(yīng)用,那么數(shù)據(jù)領(lǐng)域內(nèi)的法律原則與監(jiān)管規(guī)制,很可能將需要重構(gòu)。而且,腳步恐怕要夠快——如果跟不上技術(shù)的變化,好不容易出臺的那些規(guī)則,恐怕難免會有些尷尬,甚至成為一記記“揮空了的拳頭”。

(作者系中國政法大學(xué)新金融研究中心研究員林建軍)

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論