科技是人類(lèi)現(xiàn)有文化的延伸??萍荚谘诱沽巳祟?lèi)智慧的同時(shí),也繼承了人們的偏見(jiàn)和歧視。
當(dāng)前,人工智能作為第四次工業(yè)革命中的代表性技術(shù),正在迅速改變我們所認(rèn)知的世界。然而與此同時(shí),現(xiàn)實(shí)世界中,由人所創(chuàng)造、從人類(lèi)數(shù)據(jù)中學(xué)習(xí)觀察的人工智能,也常常表現(xiàn)出和人類(lèi)相似的偏見(jiàn),不論是招聘中的性別歧視,還是人臉識(shí)別下的種族誤判。
歧視的發(fā)生不僅折射出社會(huì)中原就存在的性別陳規(guī)與偏見(jiàn),并且,在設(shè)計(jì)與營(yíng)銷(xiāo)決策的過(guò)程中,人工智能還將進(jìn)一步放大這些偏見(jiàn)。在科技能量日益增強(qiáng)的當(dāng)下,思考和解決這些歧視的發(fā)生變得越來(lái)越重要。
AI偏見(jiàn),是人類(lèi)意志的產(chǎn)物
與隨機(jī)雜亂、物競(jìng)天擇的進(jìn)化過(guò)程不同,人工智能是人類(lèi)意志的產(chǎn)物,是為了達(dá)成某種目的而形成的。盡管人工智能作為技術(shù)包含著一個(gè)客觀結(jié)構(gòu),但人工智能同時(shí)服務(wù)于人的目的理性活動(dòng)。也就是說(shuō),任何一種人工智能算法在誕生前就已經(jīng)被概念化,并且在開(kāi)發(fā)的過(guò)程中必然伴隨著開(kāi)發(fā)者的意志。
然而,從開(kāi)發(fā)者的角度來(lái)看,美國(guó)勞工局的數(shù)據(jù)顯示,雖然女性在勞動(dòng)力市場(chǎng)中占了59%的比例,但在科技界往往只有20-30%的女性員工。在與程序開(kāi)發(fā)相關(guān)的工作中,網(wǎng)站開(kāi)發(fā)是女性比例最高的職業(yè),但也只有不到40%。
據(jù)估計(jì),截至2018年,僅僅在美國(guó)就有140萬(wàn)個(gè)與計(jì)算機(jī)相關(guān)的就業(yè)機(jī)會(huì),而女性只會(huì)獲得這其中29%的工作。人工智能的開(kāi)發(fā)也很自然地繼承了從業(yè)上的性別不平衡,沒(méi)有足夠的女性樣本參與使得人工智能的知識(shí)不可避免地出現(xiàn)漏洞,這就是為什么會(huì)出現(xiàn)偏差錯(cuò)誤的原因。
人工智能Now作為一家研究人工智能對(duì)社會(huì)影響的研究機(jī)構(gòu),其研究就表明,男性主導(dǎo)的人工智能產(chǎn)業(yè)與其生產(chǎn)的歧視性系統(tǒng)及產(chǎn)品之間有著明顯的聯(lián)系。比如,在機(jī)器學(xué)習(xí)領(lǐng)域里,其偏見(jiàn)的來(lái)源就包括不完整的或有偏差的訓(xùn)練數(shù)據(jù)集、訓(xùn)練模型代入人的標(biāo)簽和偏見(jiàn),以及算法和技術(shù)的缺陷。
當(dāng)訓(xùn)練數(shù)據(jù)中缺少某種統(tǒng)計(jì)類(lèi)別時(shí),人工智能習(xí)得的模型就無(wú)法正確衡量這部分特征。如果訓(xùn)練數(shù)據(jù)中男性比例過(guò)低,這一算法模型應(yīng)用于男性時(shí)就有更大的誤差;如果訓(xùn)練數(shù)據(jù)中關(guān)于“醫(yī)生”的照片大部分是女性,搜索“醫(yī)生”圖片時(shí),算法就會(huì)放大女性出現(xiàn)的概率。
于是,當(dāng)科技從業(yè)者們的性別不平衡進(jìn)一步表現(xiàn)在有偏差的訓(xùn)練數(shù)據(jù)集里時(shí),性別歧視就出現(xiàn)了。亞馬遜的Alexa和蘋(píng)果的Siri等常見(jiàn)人工智能系統(tǒng)的核心——自然語(yǔ)言處理(NLP)就存在性別偏見(jiàn),人工智能在詞嵌入上的性別偏見(jiàn),就像單詞聯(lián)想游戲一樣。其中,這些系統(tǒng)通常將“男人”與“醫(yī)生”相關(guān)聯(lián),將“女人”與“護(hù)士”相關(guān)聯(lián)。而這也正是訓(xùn)練樣本不完整、不足的典型代表。
從訓(xùn)練模型代入人的標(biāo)簽和偏見(jiàn)來(lái)看,絕大多數(shù)商業(yè)人工智能系統(tǒng)都使用監(jiān)督機(jī)器學(xué)習(xí),因此訓(xùn)練數(shù)據(jù)需要人為打上標(biāo)簽。這個(gè)過(guò)程中,就難免會(huì)有意無(wú)意將人的偏見(jiàn)編碼到算法模型中。倘若人在設(shè)定標(biāo)簽時(shí),將“身材的胖瘦”與“美”聯(lián)系起來(lái),算法自然會(huì)繼承這一偏見(jiàn)。
同時(shí),這些偏見(jiàn)在算法和技術(shù)的缺陷下進(jìn)一步被隱匿,當(dāng)算法和所有人的生活都緊密相關(guān)時(shí),算法卻以一種所有人都無(wú)法理解的方式在黑箱操作。“算法黑箱”帶來(lái)的某種技術(shù)屏障使得無(wú)論是程序錯(cuò)誤,還是算法歧視,在人工智能的深度學(xué)習(xí)中,都變得難以識(shí)別。偏見(jiàn)也因而無(wú)從解釋。
此外,正是由于科技行業(yè)女性的低比例,使得科技行業(yè)彌漫的性別偏見(jiàn)難以打破、研發(fā)出來(lái)的人工智能產(chǎn)品折射出來(lái)的男尊女卑的“女性觀”得不到糾偏。這種物化女性、加固性別刻板印象的趨勢(shì)則進(jìn)一步打擊了女性進(jìn)入科技界的意愿。從開(kāi)發(fā)到應(yīng)用,性別的歧視就在這樣的不良循環(huán)里存在著,隨時(shí)發(fā)生著。
適時(shí)糾偏,重建技術(shù)公平
當(dāng)前,偏見(jiàn)、歧視、錯(cuò)誤都是人工智能進(jìn)步的必經(jīng)之路,其前提是人們能夠在意識(shí)到偏見(jiàn)存在時(shí)做出改變,適時(shí)糾偏。
顯然,人工智能算法由人類(lèi)開(kāi)發(fā),被人類(lèi)使用。開(kāi)發(fā)者們的價(jià)值觀和偏見(jiàn)都將對(duì)算法造成極大影響。這也是為什么社會(huì)需要更多的女性科研人員參與人工智能的設(shè)計(jì),甚至是將女性用戶的需求以及尊重性別平等的理念融入到人工智能的系統(tǒng)里的重要原因。
從技術(shù)開(kāi)發(fā)的過(guò)程來(lái)看,不公正的數(shù)據(jù)集則是偏見(jiàn)的土壤——如果用于訓(xùn)練機(jī)器學(xué)習(xí)算法的數(shù)據(jù)集無(wú)法代表客觀現(xiàn)實(shí)情況,那么這一算法的應(yīng)用結(jié)果往往也帶有對(duì)特定群體的歧視和偏見(jiàn)。事實(shí)上,算法存在的前提就是數(shù)據(jù)信息,而算法的本質(zhì)則是對(duì)數(shù)據(jù)信息的獲取、占有和處理,在此基礎(chǔ)上產(chǎn)生新的數(shù)據(jù)和信息。簡(jiǎn)言之,算法是對(duì)數(shù)據(jù)信息或獲取的所有知識(shí)進(jìn)行改造和再生產(chǎn)。
由于算法的“技術(shù)邏輯”是結(jié)構(gòu)化了的事實(shí)和規(guī)則“推理”出確定可重復(fù)的新的事實(shí)和規(guī)則,以至于在很長(zhǎng)一段時(shí)間里人們都認(rèn)為,這種脫胎于大數(shù)據(jù)技術(shù)的算法技術(shù)本身并無(wú)所謂好壞的問(wèn)題,其在倫理判斷層面上是中性的。
然而,隨著人工智能的第三次勃興,產(chǎn)業(yè)化和社會(huì)化應(yīng)用創(chuàng)新不斷加快,數(shù)據(jù)量級(jí)增長(zhǎng),人們逐漸意識(shí)到算法所依賴(lài)的大數(shù)據(jù)并非中立。它們從真實(shí)社會(huì)中抽取,必然帶有社會(huì)固有的不平等、排斥性和歧視的痕跡。因此,算法偏見(jiàn)最直接的解決思路就是將原本不均衡的數(shù)據(jù)集進(jìn)行調(diào)整。
比如,確保訓(xùn)練樣本的多樣性,在訓(xùn)練數(shù)據(jù)中使用與男性數(shù)量相近的女性樣本,確保給樣本打標(biāo)簽的人們有著多元化的背景等。
2018年,微軟就曾與專(zhuān)家合作修正和擴(kuò)展了用于訓(xùn)練Face API的數(shù)據(jù)集。Face API作為微軟Azure中的一個(gè)API,提供預(yù)訓(xùn)練算法以檢測(cè)、識(shí)別和分析人臉圖像中的屬性。新數(shù)據(jù)通過(guò)調(diào)整膚色、性別和年齡等所占的比例,將膚色較深的男性和女性之間的識(shí)別錯(cuò)誤率降低20倍,女性的識(shí)別誤差率則降低9倍。
此外,也有公司嘗試通過(guò)構(gòu)建全球社區(qū),大規(guī)模地把某個(gè)組織可能在尋找的任何信息匯集起來(lái),并以這種廣度和深度相結(jié)合的方式進(jìn)行,這使得引入截然不同的數(shù)據(jù)來(lái)訓(xùn)練人工智能系統(tǒng)成為可能,以幫助克服算法偏見(jiàn)等問(wèn)題。
毋庸置疑,構(gòu)建更加公正的數(shù)據(jù)集是算法偏見(jiàn)重要的解決方法之一,在此基礎(chǔ)上,還可以應(yīng)用新的機(jī)器學(xué)習(xí)去除偏見(jiàn)的技術(shù)。比如,哥倫比亞大學(xué)的研究者曾開(kāi)發(fā)的一款名為DeepXplore的軟件,就可以通過(guò)技術(shù)手段使得系統(tǒng)犯錯(cuò),以暴露算法神經(jīng)網(wǎng)絡(luò)中的缺陷。
DeepXplore使用差分測(cè)試,通過(guò)以不同的方式看待事物。如果其他模型都對(duì)給定的輸入做出一致的預(yù)測(cè),而只有一個(gè)模型對(duì)此做出了不同的預(yù)測(cè),那么這個(gè)模型就會(huì)被判定有一個(gè)漏洞的方法,為打開(kāi)黑箱做出了重要的貢獻(xiàn)。
此外,2018年,谷歌也曾推出新工具What-If,作為T(mén)ensorBoard中用于檢測(cè)偏見(jiàn)的工具。利用該工具,開(kāi)發(fā)者可以通過(guò)交互式可視界面和反事實(shí)推理探究機(jī)器學(xué)習(xí)模型的特征重要性,找出誤分類(lèi)原因、確定決策邊界,檢測(cè)算法公平性等。
顯然,現(xiàn)實(shí)社會(huì)中的偏見(jiàn)產(chǎn)生的原因盤(pán)根錯(cuò)節(jié),技術(shù)作為一面鏡子,映射了人類(lèi)社會(huì)許多固有的偏見(jiàn)。盡管長(zhǎng)期以來(lái),人們都一直致力于消除偏見(jiàn),但人們至今也尚未徹底將其消滅。
偏見(jiàn)作為生活中不可避免的事實(shí)而存在著,但這并不意味著偏見(jiàn)和歧視也是新技術(shù)不可避免的方面。人工智能作為第四次工業(yè)革命中的代表性技術(shù),始終有機(jī)會(huì)重新開(kāi)始糾正偏見(jiàn)。技術(shù)由人類(lèi)開(kāi)發(fā),為人類(lèi)服務(wù),而能否創(chuàng)造對(duì)每個(gè)人都有效和公平的技術(shù),從來(lái)都取決于人類(lèi),而不是機(jī)器。