AI換臉余波未褪,AI 換聲進(jìn)行電話詐騙的戲碼竟也成真了!不得不說(shuō),現(xiàn)在確實(shí)已經(jīng)很難區(qū)分出利用深度偽造 (deep fake) 技術(shù)制作的假文本、假視頻。而近日,這種現(xiàn)象似乎又延伸到了假語(yǔ)音領(lǐng)域——一家公司就因?yàn)榻诎l(fā)生的一起語(yǔ)音欺詐案件損失了 20 萬(wàn)英鎊(合約 24.3 萬(wàn)美元)。
據(jù)《華爾街日?qǐng)?bào)》報(bào)道,今年 3 月份,網(wǎng)絡(luò)犯罪分子利用一款基于 AI 的軟件模仿了一家德國(guó)母公司首席執(zhí)行官的聲音,并欺騙該公司旗下一家英國(guó)能源公司的經(jīng)理向詐騙者控制的銀行賬戶轉(zhuǎn)款 24.3 萬(wàn)美元。
事情是這樣的,英國(guó)某能源公司的一名高級(jí)管理人員接到了一個(gè)電話,由于電話另一端的聲音非常耳熟,且同樣帶有輕微的德國(guó)口音,所以該高管就以為自己正在和德國(guó)母公司的老板通話,而對(duì)方要求他把一筆資金轉(zhuǎn)給一家匈牙利供應(yīng)商,并表示此事非常緊急,需要在一個(gè)小時(shí)內(nèi)付款,另外還保證這筆資金會(huì)立即得到報(bào)銷。
由于確信電話那頭是老板的聲音,所以該負(fù)責(zé)人就按要求將款項(xiàng)打給了匈牙利供應(yīng)商。然而事實(shí)上,這筆匯款不僅沒(méi)有得到報(bào)銷,而且詐騙者又繼續(xù)冒充這位德國(guó)老板要求另一筆緊急匯款。
不過(guò)這次,該高管注意到來(lái)電顯示地點(diǎn)是奧地利,并拒絕了付款請(qǐng)求,隨后便對(duì)該事件展開(kāi)了調(diào)查。
據(jù)《華爾街日?qǐng)?bào)》報(bào)道,這位英國(guó) CEO 轉(zhuǎn)給所謂的匈牙利供應(yīng)商的這筆錢(qián)最終被轉(zhuǎn)移到了墨西哥及其他地方。該案件目前尚在調(diào)查之中,但此次網(wǎng)絡(luò)犯罪背后的罪犯身份尚未查明。
“語(yǔ)音網(wǎng)絡(luò)釣魚(yú)”(voice phishing,簡(jiǎn)稱vishing)攻擊并不新鮮,但此次事件可能是網(wǎng)絡(luò)犯罪分子利用 AI 進(jìn)行語(yǔ)音欺詐攻擊的第一個(gè)案例。金融服務(wù)公司 Euler Hermes 的欺詐專家 Rüdiger Kirsch 表示,Euler Hermes 最終承擔(dān)了受害公司索賠的全部金額,而該保險(xiǎn)公司之前并沒(méi)有處理過(guò)其他要求追回涉及人工智能犯罪的損失的索賠案件。
ESET 的網(wǎng)絡(luò)安全專家 Jake Moore 預(yù)測(cè)稱,不久的將來(lái),我們會(huì)看到利用機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)犯罪大幅增加。我們已經(jīng)看到深度偽造技術(shù)使用視頻格式模仿名人和公眾人物,但制作這些逼真的鏡頭要花 17 個(gè)小時(shí)左右。能夠偽造聲音需要較少的錄音即可制作完成。隨著計(jì)算能力不斷提高,我們開(kāi)始看到這些變得更容易制作,未來(lái)形勢(shì)令人不安。
為了降低風(fēng)險(xiǎn),不僅有必要讓人們意識(shí)到這種模仿現(xiàn)在可以實(shí)現(xiàn),還有必要在轉(zhuǎn)賬前加入驗(yàn)證技術(shù)。雙因素身份驗(yàn)證是另一種有效、廉價(jià)且簡(jiǎn)單的技術(shù),它增添了另一層安全性,可以保護(hù)打給流氓賬戶的資金安全。被要求轉(zhuǎn)賬時(shí),尤其是大筆金額,請(qǐng)務(wù)必核查電話號(hào)碼并要求回電。使用你地址簿中的號(hào)碼,而不是點(diǎn)擊通話記錄中的 “回電” 選項(xiàng)。
在去年發(fā)布的一份報(bào)告中,Pindrop(一家為呼叫中心開(kāi)發(fā)安全軟件和協(xié)議的公司)發(fā)現(xiàn),語(yǔ)音相關(guān)的欺詐案件——主要影響銀行、信用合作社、基金公司、保險(xiǎn)公司以及銀行卡發(fā)行機(jī)構(gòu)——在 2013 年至 2017 年的四年間增長(zhǎng)了 350% 以上。
2016 年至 2017 年期間的整體語(yǔ)音渠道欺詐也增加了 47% ——相當(dāng)于每 638 起欺詐電話中就有 1 個(gè)是人工合成的。
2017 年,東芬蘭大學(xué) (University of Eastern Finland) 的研究人員進(jìn)行的一項(xiàng)研究警告稱,被各種組織用作生物識(shí)別身份驗(yàn)證方式的語(yǔ)音識(shí)別系統(tǒng)非常容易被模仿者欺騙。
而事實(shí)上,利用 AI 克隆一個(gè)人的聲音也不是什么新鮮事,百度去年就開(kāi)發(fā)了 “Deep Voice” 軟件,可以用不到 4 秒的時(shí)間克隆人聲,此舉也引發(fā)了業(yè)界對(duì)生物識(shí)別技術(shù)安全性的擔(dān)憂。
除此之外,谷歌旗下的加拿大公司 Lyrebird,只需一分鐘音頻即可生成與用戶語(yǔ)音特征高度相似的數(shù)字語(yǔ)音。
谷歌也發(fā)表過(guò)一篇題為《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》 (SV2TTS) 的論文,描述了一種用于文本到語(yǔ)音 (TTS) 合成的基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng),該系統(tǒng)能夠以許多不同發(fā)言者的聲音產(chǎn)生語(yǔ)音音頻。
SV2TTS 是一個(gè)三階段的深度學(xué)習(xí)框架,可以從幾秒鐘的音頻中創(chuàng)建語(yǔ)音的數(shù)字表示,并使用它來(lái)調(diào)節(jié)文本到語(yǔ)音的模型,該模型經(jīng)過(guò)訓(xùn)練可歸納為新的語(yǔ)音。也就是說(shuō),只需5秒鐘的音頻樣本,就可以克隆一個(gè)人的聲音。
由此可見(jiàn),基于 AI 的工具的興起既有優(yōu)點(diǎn)也有缺點(diǎn)。一方面,它為技術(shù)的探索和創(chuàng)造提供了空間,而另一方面,它也為犯罪、欺騙以及欺詐提供了可能性。