圖片來源@視覺中國
近日,麻省理工的博士生在兩項獨立研究中發(fā)現(xiàn),雖然機器擅長識別人工智能生成的文本,但是很難分辨其中的真假。原因在于訓(xùn)練機器識別假新聞的數(shù)據(jù)庫中充滿了人類的偏見,因此,訓(xùn)練而成的人工智能也不可避免地帶上了刻板印象。
人類偏見是人工智能界普遍存在的沉疴。ImageNetRoulette數(shù)字藝術(shù)項目通過使用AI分析描述用戶上傳的圖片,揭示出了這一嚴峻問題。本期全媒派獨家編譯《紐約時報》對ImageNetRoulette項目的評論,為你呈現(xiàn)人工智能背后的“隱形偏見”。以下為正文:
一天清晨,當(dāng)網(wǎng)友Tabong Kima正在刷推特時,他看到了一個名為#ImageNetRoulette 的實時熱搜。
在這個熱搜里,用戶們把自拍上傳到某個網(wǎng)站上,然后由人工智能來分析和描述它所看到的每一張臉
ImageNetRoulette就是一家這樣的網(wǎng)站,它把某位男性定義為“孤兒”,或是“不吸煙者”,如果是戴著眼鏡的,則可能被貼上“書呆子、白癡、怪胎”的標簽。
一位Twitter網(wǎng)友上傳了自己的照片,被AI識別為“強奸犯嫌疑人”(Rape Suspect),標簽位于照片左上角
在Kima看到的推特信息中,這些標簽有的準確,有的奇怪,有的離譜,但都是為了搞笑,于是他也加入了。但結(jié)果卻讓這個24歲的非裔美國人很不開心——他上傳了一張自己的微笑照片,然后網(wǎng)站給他貼上了“不法分子”和“罪犯”的標簽。
“可能是我不懂幽默吧,”他發(fā)了一條推特,“但我沒覺得這有什么有趣的。”
(注:截至發(fā)稿,該網(wǎng)站imagenet-roulette.paglen.com已經(jīng)下線,現(xiàn)跳轉(zhuǎn)到www.excavating.ai。后者網(wǎng)頁上發(fā)布了一篇由原項目創(chuàng)始人撰寫的文章《挖掘人工智能:機器學(xué)習(xí)訓(xùn)練集中的圖像政治》)
人工智能背后:偏見、種族、厭女癥
事實上,Kima的反應(yīng)正是這家網(wǎng)站想看到的。ImageNetRoulette是一個數(shù)字藝術(shù)項目,在人工智能迅速改變個人生活的當(dāng)下,這個項目旨在揭露某些古怪的、無根據(jù)的、冒犯的行為,它們正在蔓延到人工智能技術(shù)中,包括被互聯(lián)網(wǎng)公司、公安部門和其他政府機構(gòu)廣泛使用的面部識別服務(wù)。
面部識別和其他AI技術(shù)都是通過分析海量數(shù)據(jù)來學(xué)習(xí)技能,而這些數(shù)據(jù)來自過去的網(wǎng)站和學(xué)術(shù)項目,不可避免地包含多年來未被注意到的細微偏差和其他缺陷。這也是美國藝術(shù)家Trevor Paglen和微軟研究員Kate Crawford發(fā)起ImageNetRoulette項目的原因——他們希望更深層次地揭露這個問題。
“我們希望揭露偏見、種族主義和厭女癥如何從一個系統(tǒng)轉(zhuǎn)移到另一個系統(tǒng),”Paglen在電話采訪中說:“重點在于讓人們理解幕后的操作,看到我們(的信息)一直以來是如何被處理和分類的。”
作為本周米蘭Fondazione Prada博物館展覽的一部分,這個網(wǎng)站主要關(guān)注的是知名的大型可視化數(shù)據(jù)庫ImageNet。2007年,以李飛飛為首的研究人員開始討論ImageNet項目,它在“深度學(xué)習(xí)”的興起中發(fā)揮了重要的作用,這種技術(shù)使機器能夠識別包括人臉在內(nèi)的圖像。
“Training Humans”攝影展在米蘭Fondazione Prada博物館揭幕,展示人工智能系統(tǒng)如何通過訓(xùn)練來觀看并給這個世界分類。
ImageNet匯集了從互聯(lián)網(wǎng)上提取的1400多萬張照片,它探索了一種訓(xùn)練AI系統(tǒng)并評估其準確性的辦法。通過分析各種各樣不同的圖像,例如花、狗、汽車,這些系統(tǒng)可以學(xué)習(xí)如何識別它們。
在關(guān)于人工智能的討論中,鮮少被提及的一點是,ImageNet也包含了數(shù)千人的照片,每一張都被歸入某一類。有些標簽直截了當(dāng),如“啦啦隊”、“電焊工”和“童子軍”;有些則帶有明顯的感情色彩,例如“失敗者、無望成功的人、不成功的人”和“奴隸、蕩婦、邋遢女人、流氓”。
Paglen和Crawford發(fā)起了應(yīng)用這些標簽的ImageNetRoulette項目,以展示觀點、偏見甚至冒犯性的看法如何影響人工智能,不論這些標簽看起來是否無害。
偏見的蔓延
ImageNet的標簽被成千上萬的匿名者使用,他們大多數(shù)來自美國,被斯坦福的團隊雇傭。通過Amazon Mechanical Turk的眾包服務(wù),他們每給一張照片貼標簽就能賺幾分錢,每小時要瀏覽數(shù)百個標簽。在這個過程中,偏見就被納入了數(shù)據(jù)庫,盡管我們不可能知道這些貼標簽的人本身是否帶有這樣的偏見。
但他們定義了“失敗者”、“蕩婦”和“罪犯”應(yīng)該長什么樣。
這些標簽最早來自另一個龐大的數(shù)據(jù)集,WordNet,是普林斯頓大學(xué)研究人員開發(fā)的一種機器可讀的語義詞典。然而,該詞典包含了這些煽動性的標簽,斯坦福大學(xué)ImageNet的研究者們可能還沒有意識到這項研究出現(xiàn)了問題。
人工智能通常以龐大的數(shù)據(jù)集為基礎(chǔ)進行訓(xùn)練,而即使是它的創(chuàng)造者們也并不能完全理解這些數(shù)據(jù)集。“人工智能總是以超大規(guī)模運作,這會帶來一些后果,”Liz O’Sullivan說道。他曾在人工智能初創(chuàng)公司Clarifai負責(zé)數(shù)據(jù)標簽的監(jiān)督工作,現(xiàn)在是民權(quán)和私人組織“技術(shù)監(jiān)督計劃”(STOP,全稱為Surveillance Techonology Oversight Project)的成員,這個組織的目標是提高人們對人工智能系統(tǒng)問題的意識。
ImageNet數(shù)據(jù)中的許多標簽都是十分極端的。但是,同樣的問題也可能發(fā)生在看似“無害”的標簽上。畢竟,即使是“男人”和“女人”的定義,也有待商榷。
“給女性(無論是否成年)的照片貼標簽時,可能不包括性別酷兒(nonbinary,即自我認為非二元性別的人士)或短發(fā)女性,”O’ Sullivan表示,“于是,AI模型里就只有長發(fā)女性。”
近幾個月來,研究者們發(fā)現(xiàn)諸如亞馬遜、微軟和IBM等公司提供的面部識別服務(wù),都有對女性和有色人種持有偏見。通過IamgeNetRoulette項目,Paglen和Crawford希望能引起人們對這個問題的重視,而他們也的確做到了。隨著這個項目在推特等網(wǎng)站上走紅,ImageNetRoulette項目近期每小時產(chǎn)生的標簽數(shù)超過10萬個。
“我們完全沒想到,它會以這樣的方式走紅,”Crawford與Paglen說道,“它讓我們看到人們對這件事的真正看法,并且真正參與其中。”
熱潮之后,隱憂重重
對有些人來說,這只是個玩笑。但另外一些人,例如Kima,則能懂得Crawford和Paglen的用意。“他們做得很好,并不是說我以前沒有意識到這個問題,但他們把問題揭露出來了”,Kima說道。 然而,Paglen和Crawford認為,問題也許比人們想象得更加嚴重。
ImageNet只是眾多數(shù)據(jù)集中的一個。這些數(shù)據(jù)集被科技巨頭、初創(chuàng)公司和學(xué)術(shù)實驗室重復(fù)使用,訓(xùn)練出各種形式的人工智能。這些數(shù)據(jù)庫中的任何紕漏,都有可能已經(jīng)開始蔓延。
如今,許多公司和研究者都在試圖消除這些弊端。為了應(yīng)對偏見,微軟和IBM升級了面部識別服務(wù)。今年一月,Paglen和Crawofrod初次探討ImageNet中的奇怪標簽時,斯坦福大學(xué)的研究者們禁止了該數(shù)據(jù)集中所有人臉圖像的下載?,F(xiàn)在,他們表示將刪除更多的人臉圖像。
斯坦福大學(xué)的研究團隊向《紐約時報》發(fā)表了一份聲明,他們的長期目標是“解決數(shù)據(jù)集和算法中的公平性、問責(zé)制度和透明度問題。”
但對Paglen來說,一個更大的隱憂正在逼近——人工智能是從人類身上學(xué)習(xí)的,而人類是有偏見的生物。“我們對圖像的貼標簽方式是我們世界觀的產(chǎn)物,”他說,“任何一種分類系統(tǒng)都會反映出分類者的價值觀。”