回顧過(guò)去的十余年,人工智能的進(jìn)步可謂“耀眼”。尤其是從2015年“阿法狗”橫空出世之后,人工智能行業(yè)的發(fā)展速度一騎絕塵。歸根結(jié)底,是人類在人工智能領(lǐng)域探索50余年,最終才在半導(dǎo)體技術(shù)和軟件技術(shù)的幫助下,找到了機(jī)器學(xué)習(xí)領(lǐng)域的突破口。
從2015年起,人工智能行業(yè)的發(fā)展主題就是把機(jī)器學(xué)習(xí)突破這條“小路”拓寬。安防監(jiān)控、證券自動(dòng)交易、文字翻譯等一批領(lǐng)域,首先迎來(lái)了人工智能的“覺(jué)醒”,這與它們自身的數(shù)據(jù)屬性有很大的關(guān)系:安防監(jiān)控的數(shù)據(jù)都是圖像畫面;證券行業(yè)本身就是數(shù)字游戲;人類歷史上翻譯過(guò)的書籍不計(jì)其數(shù)。
可隨著時(shí)間的推移,人們發(fā)生事情開(kāi)始轉(zhuǎn)變——在越來(lái)越多的應(yīng)用場(chǎng)景下,數(shù)據(jù)反倒成為了阻礙人工智能的最大因素。一來(lái)越來(lái)越復(fù)雜的人工智能需要的數(shù)據(jù)量直線上升,二來(lái)現(xiàn)實(shí)中的數(shù)據(jù)孤島、數(shù)據(jù)隱私問(wèn)題難以解決。
對(duì)于人工智能行業(yè)、亟待人工智能幫助升級(jí)的各個(gè)產(chǎn)業(yè)而言,這都是一個(gè)避無(wú)可避的挑戰(zhàn),下一階段的智慧產(chǎn)業(yè)必須找到在種種數(shù)據(jù)限制下繼續(xù)前進(jìn)的路徑。
目前,“聯(lián)邦學(xué)習(xí)”是目前行業(yè)內(nèi)公認(rèn)最靠譜的解決方法,通過(guò)將機(jī)器學(xué)習(xí)與其他數(shù)據(jù)技術(shù)結(jié)合,為多方數(shù)據(jù)特征合作構(gòu)建一個(gè)完全由計(jì)算機(jī)掌控、高效進(jìn)行數(shù)據(jù)價(jià)值挖掘的系統(tǒng)。
近日騰訊安全發(fā)布的聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)(FLAS),是國(guó)內(nèi)“聯(lián)邦學(xué)習(xí)”技術(shù)在應(yīng)用領(lǐng)域的最新成果。通過(guò)低成本快速迭代的聯(lián)合建模服務(wù),F(xiàn)LAS能夠在保護(hù)所有參與方隱私的同時(shí),有效釋放出各方大數(shù)據(jù)生產(chǎn)力,廣泛適應(yīng)于業(yè)務(wù)創(chuàng)新的應(yīng)用場(chǎng)景。
數(shù)據(jù),當(dāng)下人工智能發(fā)展的“暗坎”
在機(jī)器學(xué)習(xí)這條路徑當(dāng)中,數(shù)據(jù)一直扮演著相當(dāng)重要的角色。雖然各個(gè)應(yīng)用場(chǎng)景存在很多差異,但有兩點(diǎn)是一致的:數(shù)據(jù)越多越好;數(shù)據(jù)的維度越多越好。
數(shù)據(jù)量的需求可以參考AlphaGo,Google旗下的DeepMind總共花了兩年時(shí)間,最終創(chuàng)造出最強(qiáng)大、全面超越人類的圍棋人工智能Alpha Zero。相比最早期使用了16萬(wàn)盤人類棋局?jǐn)?shù)據(jù)、能夠戰(zhàn)勝入門職業(yè)選手的AlphaGo,Alpha Zero使用了286億盤、包含人類和機(jī)器生成的棋局?jǐn)?shù)據(jù),兩者相差達(dá)到18000倍。
數(shù)據(jù)的維度也相當(dāng)重要,圍棋絕對(duì)算是一次艱巨的挑戰(zhàn),但棋局實(shí)際上都發(fā)生在半米見(jiàn)方、只有16行16列黑白子的棋盤之上。圍棋相比現(xiàn)實(shí)中的問(wèn)題,實(shí)在是太“簡(jiǎn)單”了,所以在解決現(xiàn)實(shí)問(wèn)題的過(guò)程中,往往會(huì)用到數(shù)倍于簡(jiǎn)單場(chǎng)景的數(shù)據(jù)維度。
從數(shù)據(jù)需求的角度出發(fā),人工智能的應(yīng)用落地顯然應(yīng)該把所需要的一定量、一定維度的數(shù)據(jù)聚集到一起,然后用足夠的計(jì)算力將它們變成可以執(zhí)行的神經(jīng)網(wǎng)絡(luò)。很可惜,這樣的操作是不現(xiàn)實(shí)的。
現(xiàn)實(shí)世界中,人工智能所需的數(shù)據(jù),大多都會(huì)以“數(shù)據(jù)孤島”的方式分布。行業(yè)與行業(yè)、企業(yè)與企業(yè),甚至部門與部門之間,都會(huì)存在現(xiàn)實(shí)的“數(shù)據(jù)鴻溝”。對(duì)于自身數(shù)字經(jīng)營(yíng)過(guò)程中產(chǎn)生的新型資產(chǎn),每個(gè)主體的數(shù)據(jù)都是寶貴的,更不要提其中涉及到的用戶隱私問(wèn)題。
近些年愈發(fā)嚴(yán)厲的數(shù)據(jù)法規(guī)也帶來(lái)了很大的挑戰(zhàn),2018年歐盟帶頭建立新法案《通用數(shù)據(jù)保護(hù)條例》(GDPR),對(duì)企業(yè)使用用戶數(shù)據(jù)進(jìn)行了仔細(xì)而全面的規(guī)定。隨之而來(lái)的,是對(duì)于企業(yè)的實(shí)際處罰。截止至2019年9月24日,22家歐洲數(shù)據(jù)監(jiān)管機(jī)構(gòu)對(duì)共87件案件作出了總計(jì)3.7億歐元的行政處罰決定。
中國(guó)也在2017年起實(shí)施《中華人民共和國(guó)網(wǎng)絡(luò)安全法》和《中華人民共和國(guó)民法總則》,明確了網(wǎng)絡(luò)運(yùn)營(yíng)者不得泄露、篡改、毀壞其收集的個(gè)人信息。同時(shí),新的《個(gè)人信息保護(hù)法》、《數(shù)據(jù)安全法》也在從草案落實(shí)成法案的過(guò)程中。這些新數(shù)據(jù)法規(guī)的落地實(shí)施,必然會(huì)對(duì)人工智能數(shù)據(jù)的收集與使用造成了直接的影響。
現(xiàn)實(shí)中的種種情況,讓人工智能技術(shù)落地這一征程,從最早的核心技術(shù)驅(qū)動(dòng),轉(zhuǎn)向了應(yīng)用中現(xiàn)實(shí)問(wèn)題的解決,也就是如何克服現(xiàn)有的人工智能數(shù)據(jù)問(wèn)題。
人工智能行業(yè)其實(shí)早早地給出了解決方案——“聯(lián)邦學(xué)習(xí)”,即在基礎(chǔ)的人工智能機(jī)器學(xué)習(xí)核心能力,與一系列數(shù)據(jù)技術(shù)、系統(tǒng)邏輯架構(gòu)結(jié)合,打造出一套系統(tǒng)化的解決方案。利用額外的計(jì)算力和網(wǎng)絡(luò)資源,來(lái)實(shí)現(xiàn)多方數(shù)據(jù)價(jià)值的匯總,同時(shí)實(shí)現(xiàn)原始數(shù)據(jù)不出本地、實(shí)際的應(yīng)用效果還能逼近于直接匯總數(shù)據(jù)的機(jī)器學(xué)習(xí)。
聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù),幫助銀行業(yè)解決現(xiàn)實(shí)問(wèn)題
在實(shí)際的應(yīng)用中,金融行業(yè)成為聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)的重點(diǎn)落地領(lǐng)域。銀行等金融機(jī)構(gòu)長(zhǎng)期以來(lái)都面對(duì)著數(shù)據(jù)難以融合的問(wèn)題:作為提供資金往來(lái)、各種金融服務(wù)的商業(yè)機(jī)構(gòu),并不缺乏數(shù)據(jù)量。但這些數(shù)據(jù)大部分都是用戶的交易數(shù)據(jù),維度相對(duì)單一,導(dǎo)致數(shù)據(jù)的價(jià)值很難挖掘。
無(wú)論是識(shí)別信用卡使用中的違規(guī)現(xiàn)象、風(fēng)險(xiǎn)提示,抑或是為用戶提供特定的營(yíng)銷推薦,促進(jìn)業(yè)務(wù)發(fā)展,它們最終服務(wù)的對(duì)象都是真實(shí)的人類客戶。后者在實(shí)際的生活中其實(shí)會(huì)源源不斷產(chǎn)生各種數(shù)據(jù):社交、消費(fèi)、金融、空間。想要更好地挖掘銀行客戶的價(jià)值,就必須把這些不同類別的數(shù)據(jù)都加入分析,進(jìn)而形成對(duì)客戶的整體性認(rèn)識(shí)。
跨多個(gè)行業(yè)、很有可能涉及用戶隱私風(fēng)險(xiǎn),這顯然是聯(lián)邦學(xué)習(xí)發(fā)揮自身能力最好的舞臺(tái)。而騰訊安全最新推出的“騰訊安全聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)”就是聯(lián)邦學(xué)習(xí)應(yīng)用落地領(lǐng)域最新、最有潛力的“舞者”。
騰訊安全聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)是一套典型的縱向聯(lián)邦學(xué)習(xí)解決方案,這一類方案通過(guò)融合多個(gè)機(jī)構(gòu)對(duì)相同樣本的不同觀察進(jìn)行AI聯(lián)合建模,最終形成一套針對(duì)擁有異構(gòu)數(shù)據(jù)的機(jī)構(gòu),如銀行、電商等的聯(lián)合建模服務(wù)。通過(guò)采用這套應(yīng)用服務(wù),最終的數(shù)據(jù)提供用戶隱私得到保障,且各方的數(shù)據(jù)安全更加可靠,同時(shí)全面釋放出大數(shù)據(jù)生產(chǎn)力。
作為一家覆蓋眾多用戶應(yīng)用領(lǐng)域的互聯(lián)網(wǎng)巨頭公司,以及“聯(lián)邦學(xué)習(xí)”本身所具有的前沿技術(shù)特性,讓騰訊安全聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)從一開(kāi)始就具備了與目前各種聯(lián)邦學(xué)習(xí)項(xiàng)目不同的特點(diǎn)。
首先是“經(jīng)驗(yàn)”,得益于騰訊自身眾多產(chǎn)品、服務(wù),騰訊安全20余年來(lái)累積了大量的黑灰產(chǎn)庫(kù),形成了包含百億點(diǎn)、千億邊的黑灰產(chǎn)知識(shí)圖譜,安全服務(wù)已經(jīng)覆蓋中國(guó)99% 的網(wǎng)民。
其次是騰訊先進(jìn)的云計(jì)算技術(shù)能力,整套騰訊安全聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)既可以基于公有云、也可以基于私有云部署,在具體的部署方式上還支持輕量、便捷、易拓展、易管理的容器技術(shù)。
最后是騰訊的互聯(lián)網(wǎng)“內(nèi)功”,在騰訊打造聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)的過(guò)程中,充分發(fā)揮了騰訊內(nèi)部的互聯(lián)網(wǎng)產(chǎn)品和工程能力,針對(duì)聯(lián)合建模過(guò)程中的通信、穩(wěn)定性進(jìn)行了專門的優(yōu)化:通過(guò)通信次數(shù)優(yōu)化、中間結(jié)果壓縮,減少了聯(lián)合建模過(guò)程中需要傳輸?shù)臄?shù)據(jù)量,提高效率;另外對(duì)于網(wǎng)絡(luò)環(huán)境造成的傳輸中斷,專門打造了模型的斷點(diǎn)備份功能,即便數(shù)據(jù)傳輸中斷也能斷點(diǎn)重啟,而無(wú)需再?gòu)牧汩_(kāi)始。
目前,騰訊安全聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)在實(shí)際業(yè)務(wù)實(shí)踐中,聯(lián)合建模新模型的AUC值提升10%-15%,最大KS值提升50%左右。已經(jīng)與江蘇銀行、濟(jì)寧銀行、湖北消金、玖富數(shù)科、嘉銀金科等金融機(jī)構(gòu)達(dá)成合作,實(shí)現(xiàn)了數(shù)據(jù)價(jià)值的雙向賦能。
互聯(lián)網(wǎng)巨頭,下一階段人工智能的領(lǐng)路人?
放眼人工智能的整體發(fā)展趨勢(shì),2000年后取得重大突破的機(jī)器學(xué)習(xí),還將作為人工智能的主要“突破口”,數(shù)據(jù)也將扮演整個(gè)人工智能實(shí)現(xiàn)過(guò)程中的關(guān)鍵角色。
在人工智能持續(xù)的落地中,機(jī)器學(xué)習(xí)這把“大錘”的發(fā)展已經(jīng)開(kāi)始放緩,在解決了各行各業(yè)當(dāng)中的許多“小釘子”之后,必然需要面對(duì)更加難解決的“大釘子”。在短時(shí)間內(nèi)沒(méi)有辦法快速把“錘子”變大的前提下,要通過(guò)多人協(xié)作——讓多個(gè)“錘子”勁往一處使的操作方法,來(lái)保持、甚至加速人工智能的發(fā)展。
但聯(lián)邦學(xué)習(xí)終究只是一項(xiàng)技術(shù),它需要面對(duì)一系列前提,應(yīng)用方需要具備:基礎(chǔ)的人工智能技術(shù)研究實(shí)力、多方共同聯(lián)邦學(xué)習(xí)系統(tǒng)的工程能力、多方實(shí)際操作中的積極參與、相當(dāng)?shù)那捌谕度肱c失敗風(fēng)險(xiǎn)。這些對(duì)于普通公司和組織不可能的前提條件,對(duì)于騰訊這樣的互聯(lián)網(wǎng)巨頭就簡(jiǎn)單多了。
就像騰訊安全聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)一樣,騰訊不僅為客戶構(gòu)建了實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)的通路,同時(shí)也將自己積累的寶貴安全黑灰產(chǎn)庫(kù)加入到了產(chǎn)品服務(wù)當(dāng)中,這種開(kāi)放、共享合作的心態(tài)與行為,很可能會(huì)成為未來(lái)人工智能發(fā)展的重要推動(dòng)力。