谷歌讓普通人讀懂 AI

騰訊研究院研究員王煥超
2020年,美國杜克大學(xué)的研究者提出一種新型算法,名為PULSE。PULSE屬于超分辨率算法,通俗意義上講,它是一款“去碼神器”,經(jīng)過運算與處理,能夠?qū)⒌头直媛?、模糊的照片轉(zhuǎn)換成清晰且細節(jié)逼真的圖像。按照原論文描述,PULSE能夠在幾秒鐘的時間內(nèi),將16×16像素的低分辨率小圖放大64倍。

1.webp.jpg

算法黑箱:從奧巴馬“變”成白人說起

打碼容易去碼難,這條互聯(lián)網(wǎng)定理似乎將成為歷史。

2020年,美國杜克大學(xué)的研究者提出一種新型算法,名為PULSE。PULSE屬于超分辨率算法,通俗意義上講,它是一款“去碼神器”,經(jīng)過運算與處理,能夠?qū)⒌头直媛?、模糊的照片轉(zhuǎn)換成清晰且細節(jié)逼真的圖像。按照原論文描述,PULSE能夠在幾秒鐘的時間內(nèi),將16×16像素的低分辨率小圖放大64倍。

如果僅僅是放大分辨率,似乎沒有太多值得稱道的地方,畢竟類似的算法早已經(jīng)出現(xiàn)。更為關(guān)鍵的是,PULSE可以定位人物面部的關(guān)鍵特征,生成一組高分辨率的面部細節(jié),因此,即便是被打了馬賽克的人臉圖像,其毛孔毛發(fā)、皮膚紋理也能被清晰還原。

2.webp.jpg

圖經(jīng)PULSE處理過的打碼圖片

圖片來源:論文《PULSE:Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models》,論文原地址:https://arxiv.org/pdf/2003.03808.pdf

簡單來說,PULSE的原理為:拿到一張低分辨率的人臉圖像之后,首先利用StyleGAN(對抗生成網(wǎng)絡(luò))生成一組高分辨率圖像,接著,PULSE會遍歷這組圖像,并將其對應(yīng)的低分辨率圖與原圖對比,找到最接近的那張,反推回去,對應(yīng)的高分辨率圖像就是要生成的結(jié)果。

3.webp.jpg

圖:PULSE圖片處理機制示例

圖片來源:論文《PULSE:Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models》

但問題也就在于此,這款“去碼神器”所生成的人臉圖像看似逼真,但實際上只是一種虛擬的新面孔,并不真實存在。也就是說,PULSE生成的高清人像,是算法“腦補”出來的作品,這也就是為何研究者會強調(diào)這項技術(shù)不能應(yīng)用于身份識別。

但是,永遠不要低估網(wǎng)友的好奇心與行動力。有人試用了PULSE之后,發(fā)現(xiàn)美國前總統(tǒng)奧巴馬的照片經(jīng)過去碼處理,生成的是一張白人的面孔。而后又有許多人進行了相似的測試,結(jié)果無一例外——輸入低清的少數(shù)族裔人臉圖像,PULSE所生成的都是具備極強白人特征的人臉照片。在種族平等成為焦點的輿論環(huán)境中,這件事很快引起軒然大波。

4.webp.jpg

圖:奧巴馬照片經(jīng)PULSE處理為白人男性面孔圖源Twitter Brad Wyble

按照一般經(jīng)驗,出現(xiàn)這種情況,肯定是訓(xùn)練算法所選用的數(shù)據(jù)庫出現(xiàn)了問題。正如PULSE的創(chuàng)建者在GitHub上所解釋的:“這種偏見很可能是從StyleGAN訓(xùn)練時使用的數(shù)據(jù)集繼承而來的。”人工智能領(lǐng)域的標桿性人物Yamm LeCun也被卷入到相關(guān)的討論之中,他同樣認為機器學(xué)習(xí)系統(tǒng)的偏差源于數(shù)據(jù)集的偏差。他指出,PULSE生成的結(jié)果之所以更偏向于白人,是因為神經(jīng)網(wǎng)絡(luò)是在Flickr-Faces-HQ(FFHQ,人臉圖像數(shù)據(jù)集)進行訓(xùn)練的,而其中大部分的圖像素材都是白人照片。

5.webp.jpg

圖:Yann LeCun的推文引發(fā)了一場罵戰(zhàn)(原推文已刪除)

“如果這一系統(tǒng)用塞內(nèi)加爾的數(shù)據(jù)集訓(xùn)練,那肯定所有結(jié)果看起來都像非洲人。”

LeCun本來是為了解釋算法偏見生成的原理,但他沒能想到,最后這句打趣的話,被指有極強的種族歧視色彩,于是他被卷入一場長達數(shù)周的罵戰(zhàn)之中。之后,LeCun不得不連發(fā)17條推文闡述邏輯,仍然不能服眾,最后以公開道歉收場。

倘若事情到此為止,也就沒有什么特殊性可言,但事情不是那么簡單。在對LeCun的批評聲音中,一部分學(xué)者指責(zé)其片面地理解AI的公平性。譬如AI藝術(shù)家Mario Klingemann就認為,問題的出現(xiàn)應(yīng)該歸因于PULSE在選擇像素的邏輯上出現(xiàn)了偏差,而不全是訓(xùn)練數(shù)據(jù)的問題。他強調(diào)自己可以利用StyleGAN將相同的低分辨率奧巴馬的照片生成非白人特征的圖像。

6.webp.jpg

圖:AI藝術(shù)家Mario Klingemann利用StyleGAN將低分辨率奧巴馬的照片生成非白人特征的圖像

“對于一張低分辨率圖片來說,可能有數(shù)百萬種高分辨率虛構(gòu)人臉,都能縮略到相同的像素組合模式”,Mario解釋稱。這就好比一道數(shù)學(xué)題可能有很多種解法,在每一種都能得出正確答案的情況下,選擇哪種解法,取決于做題的人。如果PULSE更好地改善選擇邏輯,就能避免或降低StyleGAN偏見的影響。

距離這一風(fēng)波已經(jīng)過去一段時間,時至今日,究竟是哪個環(huán)節(jié)出現(xiàn)問題依舊沒有定論,數(shù)據(jù)庫,抑或是算法本身?

但能夠確定的是,這已經(jīng)不是算法第一次出現(xiàn)偏見。

2016年,美國司法犯罪預(yù)測系統(tǒng)COMPAS被指會高估黑人的再犯罪概率,并且大大低估白人的再犯罪概率;2015年,谷歌圖像識別系統(tǒng)將黑人識別為“大猩猩”,盡管引起軒然大波,但直至2018年,谷歌都仍未完全修復(fù)這一漏洞,只是將靈長類的標簽從系統(tǒng)中移除,并稱“圖像識別技術(shù)還不成熟”。

算法偏見是算法諸多社會問題中最有代表性的一個,但一直都沒有有效的解決方法。類似事件阻礙著人機互信,也因此成為人工智能發(fā)展的絆腳石。

而此類問題之所以根深蒂固,則源于算法的不可解釋性。長期以來,人與AI的相處模式就是人類提供數(shù)據(jù)集,設(shè)定程式,而AI負責(zé)生成內(nèi)容、輸出結(jié)果。換句話說,算法的內(nèi)在運算機制就像一個黑箱一樣,如何運作并不能為人所知,而我們只能接受它的結(jié)論。但過程中就可能產(chǎn)生類似于算法偏見的問題,由于算法的黑箱性,我們不會知道究竟是哪個環(huán)節(jié)出現(xiàn)了問題,糾偏十分困難。

當下,人工智能正在以前所未有的廣度和深度參與到我們的工作生活之中,算法的黑箱性也就引發(fā)越來越多的擔(dān)憂與質(zhì)疑,在特定的文化語境中,伴之產(chǎn)生的安全風(fēng)險、隱私風(fēng)險以及更為廣泛的算法歧視、算法偏見等問題也愈發(fā)尖銳。

2018年,AI Now Institute發(fā)布的一份報告(AI NOW Rsport 2018)甚至建議稱,負責(zé)司法、醫(yī)療保健、社會福利以及教育的公共機構(gòu)應(yīng)避免使用算法技術(shù)。算法的不可解釋性逐漸演變成阻礙算法被社會層面所認可的關(guān)鍵性因素。

打開黑箱:谷歌的X AI計劃與模型卡(Google Model Cards)

算法黑箱效應(yīng)所具備的種種風(fēng)險,在不同程度上指向了算法的可解釋性問題。從2016年起,世界各國政府及各類非官方社會組織就開始極力吁求加強AI的可解釋性。

美國電氣和電子工程師協(xié)會(IEEE)在2016年和2017年連續(xù)推出《人工智能設(shè)計的倫理準則》白皮書,在多個部分都提出了對人工智能和自動化系統(tǒng)應(yīng)有解釋能力的要求。

美國計算機協(xié)會、美國公共政策委員會在2017年初發(fā)布了《算法透明性和可問責(zé)性聲明》,提出了七項基本原則,其中一項即為“解釋”,希望鼓勵使用算法決策的系統(tǒng)和機構(gòu),對算法的過程和特定的決策提供解釋。

2018年5月25日正式實施的歐盟《一般數(shù)據(jù)保護條例》(GDPR)則被認為正式確立了算法解釋權(quán)。

與此同時,隨著愈發(fā)意識到AI算法對日常決策的關(guān)鍵影響,消費者也越來越重視數(shù)據(jù)的使用方式,并要求算法更大的透明度。

正是在社會輿論與官方政策的雙重壓力下,以谷歌為代表的科技公司開始致力于提高算法的可解釋性,“可解釋性的AI”計劃(Explainable AI)也就在此背景中被推出。這項簡稱為“X AI”的計劃,其本身的目的便是推進AI模型決策的透明性。

早在2017年,谷歌就將其官方戰(zhàn)略設(shè)定為“人工智能至上”,X AI無疑是這一愿景的一部分。作為人工智能行業(yè)的先行者,如何使AI去黑箱化,使其被更廣闊的用戶所接受,無疑是谷歌需要解決的重要挑戰(zhàn),也是其必須履行的責(zé)任。

圍繞“可解釋性AI”的主線,谷歌推出了一系列技術(shù)舉措。2019年,谷歌推出可解釋人工智能白皮書《AI Explainability Whitepaper》,對谷歌AI平臺上的AI可解釋探索與實踐進行了介紹。同年11月推出的Google Model Cards便是其中較有代表性的一項技術(shù),也表征著谷歌在可解釋性領(lǐng)域的最新進展。

Google Model Cards是一種情景假設(shè)分析工具,它的功能是為算法運作過程提供一份解釋文檔,使用者可以通過查看該文檔,來了解算法模型的運作原理及性能局限。

正如我們在食用食物之前會閱讀營養(yǎng)物質(zhì)成分表,在路上行駛時會參考各種標志牌來了解道路狀況,Model Cards所扮演的角色,便是算法的“成分表”與“標志牌”。

這反過來也提醒我們,即便對待食物或駕駛都如此謹慎,算法在我們的工作與生活中扮演著愈發(fā)關(guān)鍵的角色,我們卻在沒有完全了解它的功能與原理的情況下就聽從其安排。算法在什么條件下表現(xiàn)最佳?算法有盲點存在嗎?如果有,哪些因素影響了它的運作?大部分情況下,我們對這些問題都一無所知。

在某種程度上,人之所以無法與算法“交流”,是因為后者的復(fù)雜原理,更進一步說,這是由于人與算法或更廣義的AI采用不同的“語言”。人類使用高階語言進行思考和交流,比如我們在形容一個事物時往往會用顏色、大小、形狀等維度的形容詞。而算法關(guān)注低階要素,在它的“視閾”里,一切元素都被扁平化為數(shù)據(jù)點,方便其考察不同特征屬性(Feature Atrribution)的權(quán)重。

7.webp.jpg

以圖像識別為例,對于算法來說,一幅圖像中的每個像素都是輸入要素,它會關(guān)注圖片中每一個像素的顯著程度并賦予相關(guān)數(shù)值,以此作為識別的依據(jù)。對于人來說,就顯然就不可能用“第五個坐標點的數(shù)值是6”這樣的方式來進行判定。

這種不可通約性阻礙著人與AI的對話。而可解釋性AI的初衷就是使人類,尤其是那些缺少技術(shù)背景的人更容易理解機器學(xué)習(xí)模型。

模型卡(Model Cards)就是以人類能夠看懂的方式來呈現(xiàn)算法的運作原理,它實現(xiàn)了兩個維度的“可視化”:顯示算法的基本性能機制;顯示算法的關(guān)鍵限制要素。

換言之,模型卡主要回答了這樣一些問題:目標算法的基本功能是什么?該算法在什么情況下表現(xiàn)最好?何種因素阻礙著算法的運作?這些內(nèi)容的可視化幫助使用者有效利用算法的功能,并避免其局限性。如果說算法是一盒藥物,那么模型卡就是說明書,包含適應(yīng)癥狀、藥物成分、不良反應(yīng)等內(nèi)容。

這項誕生于2019年底的技術(shù)尚未得到大規(guī)模落地應(yīng)用。但谷歌在其主頁上提供了關(guān)于模型卡應(yīng)用的兩個實例“人臉識別(面部檢測)”和“對象檢測”,以展示它的運作原理。

在人臉識別為例,模型卡首先提供的是“模型描述”(Model Description),即算法的基本功能。根據(jù)示例,可以看到人臉識別算法的基本功能就是“輸入”(照片或視頻)、“輸出”(檢測到的每個面部及相關(guān)信息,如邊界框坐標、面部標志、面部方向以及置信度得分等)。

8.webp.jpg

圖:模型卡應(yīng)用于人臉識別的工作原理

而“性能”部分則顯示了識別算法在各種變量下的表現(xiàn),例如面部大小和面部朝向,以及人口統(tǒng)計學(xué)變量(如感知膚色、性別和年齡等)。模型卡從與算法訓(xùn)練數(shù)據(jù)不同的數(shù)據(jù)源中提取評估數(shù)據(jù)集,以此有效檢測算法的真實性能。

“局限性”則列舉了可能影響模型性能的因素,比如臉型大小(距離相機較遠或瞳孔距離小于10px的面孔可能無法被檢測)、面部方向(眼、鼻、口等關(guān)鍵的面部標志應(yīng)處于正面)、燈光(照明不良的臉部可能無法檢測)、遮擋、模糊、運動等,這些因素會影響人臉識別的效果。

整體而言,模型卡通過提供“算法成分表”的方式,向研究者或使用者展示算法的基礎(chǔ)運行原理、面對不同變量的性能和局限所在。其實,對于模型卡的想象力遠可以超越谷歌提供的兩個案例,其他算法模型也可以采用模型卡對性能進行分析及展示,比如用于語言翻譯的模型卡可以提供關(guān)于行話和方言的識別差異,或者測量算法對拼寫差異的識別度。

一種讓普通人理解AI的可行性探索路徑

模型卡詳細說明了預(yù)先訓(xùn)練的機器學(xué)習(xí)模型的性能特征,并提供了有關(guān)其性能和限制的實用信息。谷歌表示,其目的是幫助開發(fā)人員就使用哪種模型以及如何負責(zé)任地部署它們做出更明智的決定。

目前,模型卡的主要應(yīng)用場景是谷歌云平臺上的Google Cloud Vision,后者是谷歌推出的一款功能強大的圖像識別工具,主要功能就是學(xué)習(xí)并識別圖片上的內(nèi)容。Google利用在大型圖像數(shù)據(jù)集上訓(xùn)練的機器學(xué)習(xí)模型,開發(fā)人員可以通過調(diào)取這個API來進行圖片分類、以及分析圖像內(nèi)容,包括檢測對象、人臉以及識別文字等等。而模型卡則為Google Cloud Vision面部檢測和對象檢測功能提供了解釋文檔。

對于技術(shù)人員來說,可以借助模型卡來進一步了解算法的性能和局限,從而能夠提供更好的學(xué)習(xí)數(shù)據(jù),改善方法和模型,提高系統(tǒng)能力。但模型卡的作用絕對不僅限于此,它提供了更為宏大的想象空間。值得一提的是,近年來除了Google,F(xiàn)acebook、IBM等大公司都推出了免費的技術(shù)工具,開發(fā)人員可以運用此類工具來檢測AI系統(tǒng)的可靠性和公平性。

對于行業(yè)分析師和媒體記者來說,他們可以根據(jù)模型卡了解算法,從而更容易向普通受眾解釋復(fù)雜技術(shù)的原理和影響。

而隨著與模型卡類似的技術(shù)思路得到更廣泛開發(fā)和應(yīng)用之后,可以進一步使普通人從算法的透明性中獲益。比如,當人們向銀行申請貸款時,銀行所使用的大數(shù)據(jù)算法會對其進行信用評分,進而決定是否能夠獲得貸款以及貸款額度大小。當一個人申請貸款卻遭到系統(tǒng)的拒絕,往往只會收到簡單的提示,比如“由于缺乏足夠的收入證明,而拒絕了你的申請”。但具備算法常識的人都會知道,運算過程不會是一維的,導(dǎo)致最終決策的是算法模型的特定結(jié)構(gòu)及部分要素的權(quán)重。而參照模型卡,普通人就可以根據(jù)算法側(cè)重的要素來強化某些維度上自己的表現(xiàn)。

模型卡甚至可以幫助發(fā)現(xiàn)并減少算法偏見、算法歧視等問題。例如,在基于人臉識別的犯罪預(yù)測系統(tǒng)中,算法在不同人群的識別上是否表現(xiàn)一致,還是會隨著膚色或區(qū)域特征的改變而產(chǎn)生不同的結(jié)果?模型卡可以清晰地展現(xiàn)這些差異,讓人們清楚算法的性能及局限所在,并且鼓勵技術(shù)人員在開發(fā)過程中就考慮這些影響。

除了模型卡,在可解釋性AI這項工作上,谷歌有更多的表現(xiàn),比如在Google I/O 2019開發(fā)者大會上發(fā)布的一項技術(shù)TCAV(概念激活向量測試)。與模型卡有所不同,TCAV所側(cè)重的是呈現(xiàn)不同因素在識別算法運作中所占的比重。比如識別一張圖片上的動物是否是斑馬,TCAV可以分析哪些變量在識別圖像時發(fā)揮了作用,以及各自發(fā)揮了多大的重要性,從而清晰展示模型預(yù)測原理。由結(jié)果可見,在各項概念中,“條紋”(Stripes)占據(jù)的權(quán)重最高,“馬的形體”(Horse)次之,“草原背景”(Savanna)的權(quán)重最低,但也有29%。

9.png

圖:TCAV的工作原理示意

無論是模型卡,還是TCAV,它們都代表著一種將算法的可解釋權(quán)利交由社會大眾的努力路徑,進而達到規(guī)制算法權(quán)力、緩和算法決策風(fēng)險的目的。這是它們的創(chuàng)新性所在,也是社會價值所在。

正如前文所述,對于算法的恐懼,不僅僅是一個技術(shù)層面的問題,更是社會意識層面的問題——人們天生對陌生事物具有恐懼情緒。在這種情況下,以推進人與AI對話的方式打開算法黑箱,無疑可以打消種種疑慮,增加人們對算法的信任,從而為人工智能更大范圍普及開辟前路。隨著算法深入到更廣泛的領(lǐng)域,可解釋性AI這項工作會有更大的前景。

這對國內(nèi)算法技術(shù)的發(fā)展也有著切實的啟發(fā)意義。比如,內(nèi)容推薦算法遭受著“信息繭房”“意見極化”等種種質(zhì)疑,很多科普方面的努力收效甚微,技術(shù)壁壘仍阻礙著普通用戶接近算法。如果能借助模型卡,以一種更友好、清晰的方式展示推薦算法的原理、性能以及局限,無疑能夠增進人們對它的理解。

所以,以模型卡為代表的“可解釋性AI”更像是一種對話方式。它不僅僅促成技術(shù)與技術(shù)人員之間的對話,而且也促成了專業(yè)人士與普通人的對話。算法的可解釋性提高之后,開頭提及的LeCun與網(wǎng)友的罵戰(zhàn)就會大大減少,因為那時候,人人都知道算法的偏見來自何種因素、數(shù)據(jù)集和識別方式,或許在引起爭議之前,大多數(shù)問題就能夠解決掉了。

可解釋性AI,也沒那么容易

到今天為止,“可解釋性AI”已經(jīng)提出了一段時間,但實際上并沒有掀起太大的波瀾?;蛟S在理想的“實驗室”環(huán)境下它大有可為,但放諸現(xiàn)實語境中,算法可解釋性的推進還有一些阻礙。對于算法可解釋權(quán)本身的存在及正當與否,無論在理論維度還是實踐維度都存在著重大的分歧。

首先,算法太過復(fù)雜以至于無法解釋。要知道,大多數(shù)具備良好性能的AI模型都具有大約1億個參數(shù),而這些參數(shù)往往都會參與到?jīng)Q策過程之中。在如此眾多的因素面前,模型卡如何可以解釋哪些因素會影響最終的結(jié)果?如果強行打開“算法黑箱”,可能帶來的結(jié)果就是犧牲性能——因為算法的運作機制是復(fù)雜、多維度而非線性的,如果采用更簡單、更易解釋的模型,無疑會在性能方面作出一些取舍。

其次,盡管AI的可解釋性重要程度很高,來自社會多方的壓力成為可解釋性AI的推進動力。但對于這項工作的必要性與最終的可行性,也要打一個問號。因為人類的思維與決策機制也是復(fù)雜而難以理解的,即便在今天,我們幾乎也對人類決策過程一無所知。倘若以人類為黃金標準,還如何期望AI能夠自我解釋?如果是在非關(guān)鍵領(lǐng)域,AI的可解釋性又有多重要?

Yann LeCun就認為,對于人類社會而言,有些事物是需要解釋的,比如法律。但大多數(shù)情況下,其他事物的可解釋性并沒有想象中那么重要。LeCun又舉了一個例子,他多年前和一群經(jīng)濟學(xué)家合作,做了一個預(yù)測房價的模型。第一個使用簡單的線性猜測模型,能夠清楚解釋運作原理;第二個用的是復(fù)雜的神經(jīng)網(wǎng)絡(luò),但效果比第一個更好。后來這群經(jīng)濟學(xué)家開了一家公司,他們會選擇哪種模型?結(jié)果很明顯。LeCun表示,任何一個人在這兩種模型里選擇,都會選效果更好的。

再者,通過政策條例和倫理準則提升算法透明度,依然存在一些局限性。要知道,要求算法具備可解釋性與企業(yè)的利益可能會產(chǎn)生強烈沖突。簡單公布一個模型的所有參數(shù),并不能提供其工作機制的清晰解釋。反而在某些情況下,透露太多算法工作原理的相關(guān)信息可能會讓不懷好意的人攻擊這個系統(tǒng)。

解釋的可能性與必要性、信任與保密等多重張力之下,圍繞可解釋性問題的爭議仍無定論,但一種共識正在逐漸達成,就是試圖一網(wǎng)打盡的可解釋性方法顯然不具備可行性。沒有一種模式能夠適合所有問題,伴隨算法技術(shù)的不斷發(fā)展,可解釋性工作的路徑與方向也應(yīng)該不斷進行適應(yīng)。

同樣,AI可解釋性不僅僅是一個技術(shù)原理的問題,也是技術(shù)倫理、社會意識的問題。Google也承認,它并不想使模型卡成為自身的一個產(chǎn)品,而是一個由多種聲音構(gòu)成的、共享的并且不斷發(fā)展的框架,其中包括用戶、開發(fā)人員、民間社會團體、行業(yè)公司、AI合作組織以及其他利益相關(guān)者。面對如此復(fù)雜的一個問題,AI的可解釋性應(yīng)該成為世界范圍共同的目標與追求。圖片

本文成稿于2020年11月,節(jié)選自《科技向善白皮書2021》。白皮書將于2021年中正式出版,敬請期待。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論