在觀看了數(shù)小時前總統(tǒng)奧巴馬每周發(fā)表講話的視頻片段后,Shruti Agarwal開始注意到一些關(guān)于奧巴馬說話方式的怪癖。
加州大學(xué)伯克利分校(UC Berkeley)計算機科學(xué)研究生Agarwal說:“每次他說‘嗨,大家好’,他都會把頭向左或向右移動,然后卷起嘴唇。”
Agarwal和她的論文導(dǎo)師Hany Farid,即電子工程和計算機科學(xué)系以及加州大學(xué)伯克利分校(UC Berkeley)信息學(xué)院的教授,目前正在努力開發(fā)數(shù)字取證工具,以揭示“深度偽造”,即人工智能生成的超現(xiàn)實視頻,視頻中人們做著或說著他們從未做過或說過的事情。
在奧巴馬的真實演講中看到這些方式給了Agarwal一個想法。
Agarwal說:“我意識到在所有這些深度偽造中有一個共同點,那就是它們往往會改變一個人說話的方式。”
Agarwal的洞察使她和Farid創(chuàng)造了對抗深度偽造的最新武器:一種新的法醫(yī)方法,可以利用一個人說話方式的微妙特征,比如奧巴馬明顯的點頭和卷起的嘴唇,來識別這個人的新聞視頻是真實的還是虛假的。
Agarwal本周在位于加利福尼亞州長灘舉行的計算機視覺和模式識別會議上展示了他們的技術(shù),該技術(shù)可用于幫助記者、決策者和公眾在政治或經(jīng)濟領(lǐng)導(dǎo)人的虛假視頻出現(xiàn)之前領(lǐng)先一步, 這些視頻可能被用來推動選舉、破壞金融市場穩(wěn)定,甚至煽動內(nèi)亂和暴力。
“想象一下現(xiàn)在的世界,你讀到的新聞可能是真實的,也可能是不真實的——這就是我們自2016年選舉以來,過去兩年一直生活的世界——你看到的圖像和視頻可能是真實的,也可能不是真實的,”在7月1日開始在加州大學(xué)伯克利分校任職的Farid說。這不僅僅是偽造圖像和視頻方面的最新進展。正是這些技術(shù)注入了一個已經(jīng)在宣傳假新聞、聳人聽聞的新聞和陰謀論的生態(tài)系統(tǒng)。
這項新技術(shù)之所以有效,是因為所有三種最常見的深度偽造——被稱為“嘴唇同步”、“換臉”和“木偶大師”都涉及將一個來源的音頻和視頻與另一個來源的圖像相結(jié)合,從而創(chuàng)造一個可以被敏銳的觀察者或復(fù)雜的計算機模型發(fā)現(xiàn)的斷開連接。
例如,使用“換臉”技術(shù),通過將特朗普的臉疊加到亞歷克.鮑德溫模仿特朗普的視頻中,從而制造一個唐納德.特朗普的深度偽造,這樣,鮑德溫幾乎就像戴著貼身的特朗普面具一樣。但是鮑德溫的面部表情仍然會通過面具表現(xiàn)出來,阿加瓦爾說。
Agarwal說:“新塑造的形象將具有亞歷克.鮑德溫的表情和面部行為,但卻是特朗普的臉。”
同樣,在“嘴唇同步”的深度偽造中,人工智能算法提取一個人講話的現(xiàn)有視頻,并更改視頻中的唇部運動以匹配新音頻的語音,其中音頻可能是斷章取義的舊語音、模擬者說話或合成的語音。去年,演員兼導(dǎo)演Jordan Peele利用這種技術(shù)制作了一段病毒視頻,視頻中奧巴馬說了一些特朗普總統(tǒng)的煽動性言論。
但是在這些視頻中,只有嘴唇運動被改變,所以面部其他部位的表情可能不再與所說的話相匹配。
為了驗證這個想法, Agarwal和Farid收集了五位主要政治人物的視頻片段——希拉里.克林頓、巴拉克.奧巴馬、伯尼.桑德斯、唐納德.特朗普和伊麗莎白.沃倫——并通過開源面部行為分析工具包OpenFace2進行分析,該工具包可以識別出面部抽搐,比如眉毛凸起、鼻子皺紋、下巴下垂和嘴唇緊閉。
然后,他們利用這些輸出來創(chuàng)建團隊所稱的"軟生物識別"模型,該模型將每個政治領(lǐng)導(dǎo)人的面部表情和頭部運動聯(lián)系起來。他們發(fā)現(xiàn)每個領(lǐng)導(dǎo)者都有一種獨特的說話方式,當(dāng)他們使用這些模型分析他們在南加州大學(xué)合作者制作的真實視頻和深度偽造時,依據(jù)領(lǐng)導(dǎo)者和視頻的長度,他們發(fā)現(xiàn)這些模型能夠準(zhǔn)確地分辨出92% 到 96% 之間的真假。
“基本的想法是,我們可以為各種世界領(lǐng)導(dǎo)人,如 2020 年的總統(tǒng)候選人,建立這些軟生物識別模型, 然后,當(dāng)視頻開始播放時,我們可以分析這些模型,并試圖確定它們是否是真實的。” Farid說。
與一些數(shù)字取證技術(shù)不同,這種新技術(shù)通過識別制造過程中留下的圖像偽影來識別假制品,新技術(shù)仍然可以識別通過簡單的數(shù)字處理(如調(diào)整大小或壓縮)而更改的假制品。
但這并非是萬無一失的。這項技術(shù)在政治人物發(fā)表演講和正式講話時效果很好, 因為他們傾向于在這些環(huán)境中堅持精心排練的行為。但在其他場景下,這些人的視頻可能效果不佳:例如,奧巴馬在問候他的朋友們時可能不會點頭而表示同樣的特征。
研究人員說,深度偽造的創(chuàng)始者也可以對這些語言模式更為精通,并學(xué)會將它們?nèi)谌氲剿麄優(yōu)槭澜珙I(lǐng)導(dǎo)人制作的視頻中。
Agarwal說,她希望新技術(shù)將有助于在不斷進化的發(fā)現(xiàn)深度偽造的競爭中爭取一些時間。
Agarwal說: “我們只是想在這個發(fā)現(xiàn)和創(chuàng)造新的深度偽造的貓和老鼠游戲中取得一點優(yōu)勢。”
原文作者:Kara Manke
原文鏈接: https://news.berkeley.edu/2019/06/18/researchers-use-facial-quirks-to-unmask-deepfakes/