近兩年,人工智能被炒的火熱,認(rèn)為其無所不能,人們總是過于將人工智能神化。“紅衣教主”周鴻祎曾經(jīng)在接受媒體采訪時直言,當(dāng)前人工智能炒得太熱,被渲染得好像無所不能,其實它并不是萬能的。
AI技術(shù)目前還在初級階段,一個對于人類來說簡單至極的任務(wù),到了AI模型面前卻成為巨大的挑戰(zhàn)。
1月初,人工智能(Artificial Intelligence,AI)領(lǐng)域出現(xiàn)了一個標(biāo)志性事件:阿里巴巴和微軟的團隊在斯坦福大學(xué)的閱讀理解問答測試中,創(chuàng)造出超越人類水平的成績。因為這個,有些媒體打出大字標(biāo)題:人工智能的閱讀理解能力已經(jīng)超過人類。
AI模型已經(jīng)能夠比人類更好地理解文章內(nèi)容了嗎?先放下這個問題,看看AI的另一類重要領(lǐng)域:圖像識別。
圖像識別是AI最早取得重大突破的領(lǐng)域。2012年,谷歌的兩位技術(shù)大牛Jeff Dean和吳恩達(Andrew Ng)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,通過自主學(xué)習(xí)YouTube上的圖像資料,讓神經(jīng)網(wǎng)絡(luò)模型具備了對于貓的識別能力,并掀起了機器學(xué)習(xí)構(gòu)建AI模型的行業(yè)熱潮。在最前沿的AI行業(yè)應(yīng)用中,如自動駕駛系統(tǒng),圖像識別也是其構(gòu)建整個應(yīng)用的基礎(chǔ)能力。所以圖像識別能力的發(fā)展實際上是整個AI產(chǎn)業(yè)能力發(fā)展的縮影。但就在2017年底至2018年初,AI的圖像識別似乎遇到一些難以解決的問題。這些問題,恐怕可以很好地說明一個真相:目前的AI能力,是十分容易被欺騙的,失之毫厘,謬以千里。
黑猩猩事件
2018年1月《連線》雜志報道,谷歌公司偷偷地把“猩猩”(gorilla)、“黑猩猩”(chimp/chimpanzee)和“猴子”(monkey)標(biāo)簽從圖片分類選項中去除。這是怎么回事呢,事情還要從三年前說起。
2015年6月,一位黑人程序員在使用谷歌的照片分類模型對自己的照片進行自動分類標(biāo)注時,驚奇地發(fā)現(xiàn)他的一位黑人好友的照片被打上了“猩猩”的標(biāo)簽。他憤而將此事發(fā)布在互聯(lián)網(wǎng)上并得到高度關(guān)注。在一向強調(diào)政治正確和反對種族歧視的美國,一個企業(yè)的產(chǎn)品有如此嚴(yán)重的種族主義錯誤,這無論如何都是不能被接受的。谷歌公司的反饋也非常之快,他們立即就暫停了該分類標(biāo)簽功能,并表示將盡快調(diào)整模型,從根本上防止此類事件的再度發(fā)生。當(dāng)時提供這個分類標(biāo)簽功能的,就是谷歌早期的AI圖像識別模型。
按理說,在AI技術(shù)飛速發(fā)展的三年后,借助于更加豐富的數(shù)據(jù)來源和更加強大的云計算平臺,谷歌的圖像識別AI模型應(yīng)該已經(jīng)具備了比2015年精確得多的識別能力。
但谷歌最終的解決方法卻是靜悄悄地把引起麻煩的標(biāo)簽從標(biāo)簽庫中去除。我們雖然無法得知其中的細節(jié),但對于目前AI模型的能力不由得會有一絲懷疑:準(zhǔn)確區(qū)分靈長類動物和黑人對于AI模型就真的那么難嗎?是的,在某些場景下,對于幾乎所有智力正常的人類甚至三歲小孩都能完成的圖像識別,對于AI模型卻是難上加難。
Google Inception v-3是Google公司在自己的AI平臺Tensorflow上的開源圖像識別神經(jīng)網(wǎng)絡(luò)模型,Top-5錯誤率可以低到3.46%,代表了人工智能圖像識別領(lǐng)域的領(lǐng)先水平(圖像識別的判別指標(biāo),模型對每幅圖像同時提供5個類別標(biāo)簽,其中任何一個類別標(biāo)簽判別正確,結(jié)果都算正確。當(dāng)5個標(biāo)簽全部錯誤,才算判別錯誤)。
麻省理工計算機科學(xué)和人工智能實驗室的實驗人員2017年10月完成了一個有趣的實驗。他們通過對于被判別物體的表面和顏色進行特殊處理,單純改變表面材質(zhì)和顏色進行欺騙,就可以讓Google Inception v-3圖像識別AI模型做出錯誤判斷,讓其把海龜識別為槍支,把棒球識別為濃縮咖啡(espresso)。
另一個有關(guān)圖像識別的欺詐則是來自于谷歌公司自己的研究團隊。他們在2017年12月創(chuàng)造出一種被稱為“對抗性補丁”( Adversarial Patch)的物體,能夠成功干擾現(xiàn)有的谷歌圖像識別AI模型,讓其把香蕉識別為烤面包機。
正常狀態(tài)下,圖像識別模型能夠準(zhǔn)確識別香蕉。但放置了這個“對抗性補丁”后,圖像識別模型立即產(chǎn)生錯誤判別。根據(jù)谷歌的研究結(jié)果,這種基于特定“補丁”的圖像識別攻擊,“補丁”面積只要占據(jù)不到10%的識別面積,就可以達到90%以上的攻擊成功率。
令人驚嘆的是,利用“補丁”攻擊的過程非常簡單。這些干擾性“補丁”可以很方便地打印出來,添加到任何場景或圖片中,或者放置在被識別物品的旁邊,以便被圖像識別的攝像頭捕捉到。哪怕這個“補丁”很小,它們也能夠誘導(dǎo)AI模型忽略邊上應(yīng)該被識別的物體,而把識別的焦點吸引到自身,最終導(dǎo)致AI模型做出錯誤的判斷。
一名人類兒童甚至一條狗、一只貓在觀察圖像時會出現(xiàn)這樣的錯誤嗎?當(dāng)然不會。這像神話一樣的操作,恰恰說明了目前基于AI的圖像識別,和人類以及動物的圖像識別模式是完全不同的。
我們知道,目前絕大多數(shù)圖像識別模型都是基于神經(jīng)網(wǎng)絡(luò)算法構(gòu)造的。這種算法通過建立多重隱藏層和計算單元間復(fù)雜的連接關(guān)系,對圖像信息進行層層分解和抽象,從而構(gòu)造出包含圖像內(nèi)多重信息特征的特征圖。如明暗、顏色、形狀、相互關(guān)系等等。最后通過特征圖內(nèi)多重特征信息的判別最終完成對于圖像的整體判別。
人類顯然不是這樣進行圖像識別的。如果識別機理相似,那欺騙AI的方式應(yīng)該會對人類有起碼的干擾作用,但這些對于AI模型的干擾效果從人類的角度來看都像是笑話。
人類的大腦皮層對于圖像和形狀的判別機制目前幾乎是未知的。最新科技創(chuàng)造出的AI模型判別方式只是在某些方面達到了近似人類圖像識別的效果,但千萬不要認(rèn)為AI真的認(rèn)識圖像或形狀,它只是以一種你無法理解的方式對于圖像進行標(biāo)記和識別。
為什么谷歌公司歷時三年,都最終無法建立準(zhǔn)確識別靈長類動物和黑人的AI模型?這就是原因。因為判別方式的天差地別,一個對于人類的簡單任務(wù),到了AI模型面前卻成為巨大的挑戰(zhàn)。
真實世界的理性判斷
目前,絕大部分人工智能模型都是基于神經(jīng)網(wǎng)絡(luò)這樣的“黑盒子”模型構(gòu)建而成。雖然在絕大多數(shù)場景下,模型都能夠做出準(zhǔn)確度較高的識別和預(yù)測。但識別和預(yù)測規(guī)則完全不透明的情況下,連研究者自己都不知道模型的判斷規(guī)則。這意味著一旦人工智能被發(fā)現(xiàn)某些特定的缺陷,將有機會對其進行有針對性的欺騙。所以,AI模型圖像識別的缺陷有可能會在部分行業(yè)應(yīng)用中導(dǎo)致嚴(yán)重的后果。
2017年9月,伯克利等四所大學(xué)的聯(lián)合項目組進一步研究了AI在自動駕駛系統(tǒng)中的應(yīng)用。
項目組發(fā)現(xiàn),只要在現(xiàn)有的交通標(biāo)志上粘貼少量圖形,就可以誘導(dǎo)自動駕駛系統(tǒng)把“停牌”標(biāo)志識別為“限速”標(biāo)志。
由于這些欺騙手段對于自動駕駛系統(tǒng)判別結(jié)果的干擾非常成功,這篇論文的標(biāo)題甚至使用了“來自真實世界的穩(wěn)健性攻擊——面向深度學(xué)習(xí)模型”(Robust Physical-World Attacks on Deep Learning Models)這樣字眼。
這些案例都是對被識別圖像進行少量的顯著修改來欺騙AI模型,由于這些修改相對明顯,人眼還可以主動識別出來。部分更加復(fù)雜的攻擊有可能以人類無法察覺的方式進行。
同樣還是谷歌的圖像識別模型,在正確識別的基礎(chǔ)上,麻省理工的研究者只是修改了少量的圖形像素,同樣達到了欺騙模型的目的,把槍支識別為直升機。而修改前和修改后的這兩張圖,人眼看來完全一樣。
所以,目前的AI模型,起碼在圖像識別領(lǐng)域,是可以被人為欺騙的。而欺騙的手段五花八門,甚至可以使用人類肉眼完全無法識別的方式進行。
阿里巴巴和微軟的AI模型在閱讀理解測試方面超過了人類。其實這一事件的意義并不是像普通大眾想象的那樣,AI模型已經(jīng)可以比人類更好地理解文章內(nèi)容了。
既然是閱讀理解測試,那么決定最終成績的是測試結(jié)果。通過成績單可以總結(jié)出來,這個閱讀理解測試其實是回答填空題。填空題的答案是出現(xiàn)在文章中的某個日期、時間、對象等。
對閱讀理解考試有豐富經(jīng)驗的人了解,先不通讀文章,能夠立即開始答題嗎?答案一定是可以。根據(jù)問題找答案,問時間找時間,問地點找地點,問對象根據(jù)上下文找名詞。不用閱讀文章并理解整篇文章的主旨,人類可以蒙對很多答案。
同樣地,對于AI模型來說,它只是建立了詞與詞、詞組與詞組的關(guān)聯(lián)關(guān)系,并結(jié)合上下文的位置信息,提供模型判別概率最高的答案。
如果你認(rèn)為AI模型真的理解了它所閱讀的文章,那你就是用人類思維去套用AI的模型構(gòu)造方式,這是完全不對的。最終AI模型只是根據(jù)文章形成詞與詞的關(guān)聯(lián)關(guān)系,并使用這一關(guān)聯(lián)關(guān)系回答問題。
所以,千萬不要相信,AI系統(tǒng)現(xiàn)在已經(jīng)完全具備了識別、判斷甚至認(rèn)知的功能。因為,AI目前具有的這些功能和人類通常意義上的理解是完全不同的。并且,我們也無法完全信任一個AI系統(tǒng)——現(xiàn)有的AI是非常容易被欺騙的,而且欺騙的操作可以非常簡單,這對于大眾認(rèn)識AI并合理使用AI是非常重要的。
(原標(biāo)題:別再神話人工智能了,現(xiàn)有的AI很容易被騙)