圖片來源@視覺中國
本文來自鈦媒體,文|陳根。
人工智能(AI)技術(shù)的進(jìn)步,讓一切的合成變得簡單和輕易。近年來,利用深度學(xué)習(xí)、虛擬現(xiàn)實等生成合成類算法制作圖像、音頻、視頻、虛擬場景等信息的深度合成技術(shù),已在多個領(lǐng)域大量應(yīng)用,伴隨著不斷涌現(xiàn)的使用需求,深度合成內(nèi)容數(shù)量和關(guān)注度呈現(xiàn)快速增長態(tài)勢。
在深度合成快速發(fā)展的同時,挑戰(zhàn)也隨之而來。深度合成技術(shù)的日益精湛,導(dǎo)致合成的音頻、視頻等偽造內(nèi)容越來越能以假亂真,并由此帶來一系列關(guān)于安全的風(fēng)險。在這樣的背景下,除了立法進(jìn)行監(jiān)管,以技術(shù)規(guī)制技術(shù)成為深度合成的必然。問題是,技術(shù)該怎么規(guī)制技術(shù)?深度合成和檢測的“貓鼠游戲”的下一步又會是什么?
深度合成和新的風(fēng)險
深度合成技術(shù)是人工智能發(fā)展到一定階段的產(chǎn)物,源于人工智能系統(tǒng)生成對抗網(wǎng)絡(luò)(GAN)的進(jìn)步。
GAN由生成器和識別器兩個相互競爭的系統(tǒng)組成。建立GAN的第一步是識別所需的輸出,并為生成器創(chuàng)建一個培訓(xùn)數(shù)據(jù)集。一旦生成器開始創(chuàng)建可接受的輸出內(nèi)容,就可以將視頻剪輯提供給識別器進(jìn)行鑒別;如果鑒別出視頻是假的,就會告訴生成器在創(chuàng)建下一個視頻時需要修正的地方。
根據(jù)每次的“對抗”結(jié)果,生成器會調(diào)整其制作時使用到的參數(shù),直到鑒別器無法辨別生成作品和真跡,以此將現(xiàn)有圖像和視頻組合并疊加到源圖像上,終于生成合成視頻。典型的“深度合成”主要包括人臉替換、人臉再現(xiàn)、人臉合成以及語音合成四種形式。
深度合成真正走紅其實是一場意外。2017年,美國新聞網(wǎng)站Reddit的一個名為“deepfakes”的用戶上傳了經(jīng)過數(shù)字化篡改的色情視頻,即這些視頻中的成人演員的臉被替換成了電影明星的臉。此后,Reddit網(wǎng)站就成為了分享虛假色情視頻的一個陣地。盡管后來Reddit網(wǎng)站上的deepfake論壇因為充斥著大量合成的色情視頻而被關(guān)閉,但deepfake背后的人工智能技術(shù)卻引起了技術(shù)社區(qū)的廣泛興趣,開源方法和工具性的應(yīng)用不斷涌現(xiàn),比如,F(xiàn)akeAPP、face2face等。
今天,隨著技術(shù)進(jìn)步,深度合成在影視制作、廣告營銷、社交娛樂等領(lǐng)域應(yīng)用不斷豐富,包括AI合成主播、虛擬偶像、修復(fù)歷史老照片等。與此同時,越來越多的企業(yè)機(jī)構(gòu)利用深度合成技術(shù)提供面向公眾的產(chǎn)品和服務(wù):支持風(fēng)格定制的特效視頻制作軟件;語音方向衍生出語音導(dǎo)航、有聲讀物等應(yīng)用;文本合成在新聞報道、聊天問答等方面使用廣泛。
可以預(yù)見,未來,隨著自動數(shù)據(jù)生成、全身合成、3D塑型等技術(shù)的逐漸成型,一個新的人類生存場景將以深度合成技術(shù)為基石展開。不過,深度合成在激發(fā)了新內(nèi)容創(chuàng)造力的同時,也帶來了新的威脅。
一方面,隨著深度合成內(nèi)容的制作門檻大大降低,不法分子就可輕易偽造音頻、視頻,實施詐騙、勒索等違法行為。這從這兩年的社會新聞就可見一斑。
近兩年來,在浙江、安徽、江蘇等地,多名盜取個人信息的犯罪嫌疑人被公安部門抓獲。犯罪嫌疑人作案流程極為雷同:先是非法獲取他人照片或有償收購他人聲音等“物料”,然后利用人工智能技術(shù)將照片“活化”、合成動態(tài)視頻,之后或直接騙過社交平臺、支付寶賬戶的人臉核驗機(jī)制,進(jìn)行非法獲利。
另一方面,深度合成內(nèi)容模糊了真實和虛假的邊界,將對社會信任、媒體信任產(chǎn)生巨大的影響。虛假內(nèi)容的高難度甄別影響了事實核查的有效性,在社會重大事件或政治事件節(jié)點(diǎn)上,深度合成技術(shù)可能被用于操作輿論意見,借助社交媒體,使虛假信息短時間內(nèi)引發(fā)產(chǎn)生病毒式擴(kuò)散,激化社會矛盾。
深度合成的泛濫進(jìn)一步增加侵犯肖像權(quán)和隱私權(quán)的可能,沒人愿意自己的臉龐出現(xiàn)在莫名其妙的視頻當(dāng)中。深度偽造技術(shù)的最初就是被應(yīng)用于色情行業(yè),如今,這一應(yīng)用對肖像權(quán)和隱私的侵害隨著深度偽造向著廉價造假轉(zhuǎn)化仍然在放大。于是,借助一些低價乃至免費(fèi)的軟件,消費(fèi)者無需專業(yè)知識和技術(shù)能力,即可通過終端實現(xiàn)調(diào)整速度、攝像頭效果、更換背景、實現(xiàn)換臉等操作。
技術(shù)怎么規(guī)制技術(shù)?
深度合成帶來的負(fù)面風(fēng)險不斷加劇,如何有效甄別深度合成內(nèi)容就成了關(guān)鍵。
過去,生物特征測試被認(rèn)為是深度合成內(nèi)容的重要技術(shù),但實際上,眨眼測試等根據(jù)生物特征進(jìn)行鑒別的方式,是非常低效、不可靠的,只能階段性地起作用,而且隨著深度合成技術(shù)的發(fā)展進(jìn)化,生物特征測試越來越難以發(fā)揮作用。相反,深度合成內(nèi)容的檢測識別,需要基于AI的鑒別技術(shù),來實現(xiàn)對深度合成內(nèi)容的自動化檢測。
但是,學(xué)術(shù)和商業(yè)界的防偽開發(fā)項目多針對特定產(chǎn)品而非通用的音頻或視頻,即需要針對每一種新興的視頻內(nèi)容篡改技術(shù)都訓(xùn)練一個對應(yīng)的鑒別網(wǎng)絡(luò),還沒有通用性的視頻鑒別網(wǎng)絡(luò)。簡單來說,隨著深度合成技術(shù)的進(jìn)化,雖然學(xué)界和業(yè)界已在大量投入和支持鑒別技術(shù)的開發(fā),但目前的鑒別網(wǎng)絡(luò)多針對特定的深度合成方法,尚沒有通用的鑒別網(wǎng)絡(luò),因此AI檢測工具需要隨時更新。
正如Photo DNA(識別和屏蔽兒童色情圖片的技術(shù))技術(shù)開發(fā)者、達(dá)特茅斯學(xué)院教授Hany Farid所說,我們距離能夠確切地識別深度合成內(nèi)容的鑒別技術(shù)還有幾十年的路要走。這意味著,在深度合成技術(shù)上,如果想要用技術(shù)來規(guī)制技術(shù)風(fēng)險,還需要加大對通用且高效鑒偽技術(shù)的研發(fā)投入和支持力度。比如,美國國防部高級研究計劃局(DARPA)目前有兩個項目致力于深度合成內(nèi)容的檢測鑒別——媒體鑒定(Media Forensics)和語義鑒定(Semantic Forensics)。
其中,媒體鑒定項目計劃開發(fā)一個算法平臺,自動評估照片和視頻的完整性,并向分析師提供有關(guān)假冒內(nèi)容是如何生成的信息。語義鑒定平臺試圖開發(fā)一種媒體信息的自動識別方法,檢測并識別不尋常的信息或面部特征。無論是媒體鑒定還是語義鑒定,兩者都是為了提高識別和對抗虛假信息的能力。
除了開發(fā)通用的鑒別技術(shù)外,用技術(shù)規(guī)制技術(shù)的另一方面,就是開發(fā)深度合成的溯源技術(shù)。實際上,一直以來,人們都有試圖通過技術(shù)手段遏制深度造假的泛濫。2019年,斯坦福大學(xué)研究員Tom Van de Weghe聯(lián)合計算機(jī)、新聞等行業(yè)的專家,成立了深度造假研究小組,以提升公眾對這一現(xiàn)象的認(rèn)知度,設(shè)計深度造假的識別應(yīng)對方案。
然而,技術(shù)發(fā)展速度往往高于破解速度。隨著鑒別器在識別假視頻方面做得越來越好,生成器在創(chuàng)建假視頻方面也做得越來越好。理論上,只要給GAN當(dāng)前掌握的所有鑒別技術(shù),它就能通過學(xué)習(xí)進(jìn)行自我進(jìn)化,規(guī)避鑒別監(jiān)測。攻擊會被防御反擊,反過來又被更復(fù)雜的攻擊所抵消。
這使得深度合成技術(shù)的檢測與反檢測逐漸演變成一場貓捉老鼠的技術(shù)競賽,深度合成技術(shù)正在快速更新以逃避檢測工具的識別。因此,還需要從內(nèi)容源頭上區(qū)分真實內(nèi)容與合成內(nèi)容,確認(rèn)內(nèi)容的來源包括制作者、制作的地點(diǎn)等。
有一種設(shè)想是提供一種標(biāo)記方法,要求用戶在特定位置標(biāo)識內(nèi)容的原始來源或注明內(nèi)容是否已經(jīng)過編輯。但是標(biāo)記和分類的前提是用戶或平臺能夠確定特定內(nèi)容是否真實,而運(yùn)用區(qū)塊鏈技術(shù)進(jìn)行內(nèi)容識別被認(rèn)為是一種有效的解決方案。
目前市場上一些語音合成和視頻合成設(shè)備的制造商已經(jīng)使用各種時間戳工具,在由特定設(shè)備創(chuàng)建的圖像和視頻上添加數(shù)字水印或數(shù)字簽名,用來記錄圖像或視頻是在何時何地拍攝的,用的什么設(shè)備等信息,這些可以用來檢測某個文件是否隨著時間的推移而被修改。
“貓鼠游戲”的下一步是什么?
科技進(jìn)步,不僅在于技術(shù)的進(jìn)步,還應(yīng)展現(xiàn)人類駕馭技術(shù)的進(jìn)步和智慧,顯然,想要發(fā)揮深度合成技術(shù)的最大效益,就必須與深度合成進(jìn)行一場持續(xù)的攻守。
一方面,仍要持續(xù)發(fā)展深度合成技術(shù),而不能“一刀切”地禁止,這將會阻礙正向應(yīng)用與創(chuàng)新。顯然,隨著人工智能時代的到來,下一代媒體將由人工智能驅(qū)動,人工智能可能給數(shù)字內(nèi)容領(lǐng)域帶來重塑。其中,可以實現(xiàn)換臉、人臉合成、語音合成、視頻生成甚至數(shù)字虛擬人等諸多應(yīng)用形式的深度合成技術(shù),作為人工智能發(fā)展到一定階段的產(chǎn)物,正在進(jìn)入商業(yè)化階段。
短期內(nèi),深度合成技術(shù)已經(jīng)作用于影視、娛樂和社交等諸多領(lǐng)域,它們或是被用于升級傳統(tǒng)的音視頻處理或后期技術(shù),帶來更好的影音體驗;或是被用來進(jìn)一步打破語言障礙,優(yōu)化社交體驗。中長期來看,深度合成技術(shù)還可以基于其深度仿真的特征,超越時空限制,加深我們與虛擬世界的交互,也可以基于其合成性,創(chuàng)造一些超越真實世界的素材。尤其是元宇宙概念的流行,更是為深度合成技術(shù)提供了更加寬廣的應(yīng)用場景。
另一方面,面對深度合成衍生出的安全問題,除了要從源頭上解決,利用技術(shù)創(chuàng)新、技術(shù)對抗等方式,持續(xù)提升和迭代檢測技術(shù)的能力外,還需要通過政府與社會組織參與、協(xié)同治理。
在我國,2019年以來陸續(xù)出臺《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》等法規(guī),對生成合成類內(nèi)容等提出了不同程度的監(jiān)管要求。新公布的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》進(jìn)一步提出,深度合成服務(wù)提供者深度合成服務(wù)時,應(yīng)當(dāng)使用顯著方式對深度合成信息內(nèi)容進(jìn)行標(biāo)識。
此外,美國從聯(lián)邦和州層面進(jìn)行了專門立法,歐盟將深度合成納入《通用數(shù)據(jù)保護(hù)條例(GDPR)》等現(xiàn)有法律框架規(guī)制。德國、新加坡、英國、韓國等國家,均有適用于深度合成技術(shù)相關(guān)犯罪案件審理的法律法規(guī)。
不過,雖然目前各國都在積極探尋有效治理機(jī)制,但由于深度合成往往基于公開照片的生成,這令其很難真正被發(fā)現(xiàn)。而一旦被發(fā)現(xiàn),誰又有權(quán)利刪除數(shù)據(jù)?違法者或侵權(quán)者的數(shù)據(jù)是否擁有同樣的權(quán)利?此外,當(dāng)平臺發(fā)現(xiàn)疑似深度偽造視頻時,它是否能簡單刪除以規(guī)避責(zé)任,這種行為又是否會阻礙傳播自由?
本質(zhì)上來看,深度合成的問題就是透明度不足。因此,從各個層面提高公眾對深度合成技術(shù)的認(rèn)知尤為重要,只有將門檻降低到所有受眾能夠在共同框架下認(rèn)識、理解這個問題的時候,深度合成技術(shù)才能健康良性發(fā)展。
說到底,如何最大限度地實現(xiàn)深度合成技術(shù)的社會效益和商業(yè)效應(yīng),依然是一場持續(xù)的攻守。“貓鼠游戲”還會進(jìn)行下去,在反復(fù)的博弈中,人們也將進(jìn)入一個機(jī)遇與挑戰(zhàn)并存的深度合成的新階段。