本文來自微信公眾號“出新研究”,作者/番攤123。
AI自出現(xiàn)和普及以來就迅速改變了我們的生活和工作方式。與此同時,AI數(shù)據(jù)偏見也不能不引起重視。當我們走向Web3,走向未來時,我們自然會看到二者兼有的創(chuàng)新產(chǎn)品、解決方案和服務(wù)。而且,雖然有人說去中心化技術(shù)可以解決相關(guān)的偏見等問題,但事實真的就能如此理想嗎?
Web3的概念很值得期待,但不能忽視的事實是市場規(guī)模仍然相對較小且難以量化,因為Web3生態(tài)系統(tǒng)仍處于發(fā)展早期,Web3的確切定義仍在不斷發(fā)展變化中。雖然2021“元宇宙元年”時的Web3市場規(guī)模估計約有20億美元,但各家分析和研究公司的報告則普遍估計復(fù)合年增長率約為45%,再加上Web3解決方案和消費者采用率的快速增長,到2030年,Web3市場的價值將達到至少800億美元。雖然未來可期,但行業(yè)的現(xiàn)狀與其他各種各樣,不可避免的因素都是AI與數(shù)據(jù)出現(xiàn)偏見的原因。
01
AI數(shù)據(jù)的數(shù)量、質(zhì)量與偏見
AI的學習系統(tǒng),以及支持它們運行的算法都需要大量高質(zhì)量數(shù)據(jù)集來訓練。OpenAI的GPT系列能有今天,大量高質(zhì)量的數(shù)據(jù)集功不可沒。雖然OpenAI并未透露用于訓練的確切數(shù)據(jù)量,但以GPT-3包含1750億級的參數(shù)反推也可管中窺豹,其訓練的數(shù)據(jù)量應(yīng)該也是同等的數(shù)量級,也可能更多。
說AI會有偏見估計很多人都難以置信,但事實的確如此,ChatGPT就不止一次的出現(xiàn)過這種問題。雖然OpenAI表示“ChatGPT不可以表達政治觀點或從事政治活動”,但有研究表明一旦遇到政治聲明或投票建議,表明立場等問題時,ChatGPT就有很明顯的親環(huán)境主義與左翼自由主義傾向;還有人發(fā)現(xiàn)一旦問到與CEO或董事長等相關(guān)的模糊描述時,ChatGPT經(jīng)常會先入為主以白人男性為出發(fā)點。仔細觀察不難發(fā)現(xiàn),這明顯是訓練過程中人為操作留下的痕跡,也可能是訓練數(shù)據(jù)的算法偏差導(dǎo)致的。
02
偏見帶來的風險
很多人之所以對偏見不以為意或視而不見,是因為自己不是被歧視者,這個道理與走進法庭時才理解律師的重要性差不多。2016年微軟曾推出一款名叫Tay的聊天機器人,與蘋果的Siri類似,但僅僅一天后就被關(guān)閉下線了,因為Tay已經(jīng)說出了一些涉嫌種族歧視的言論。事后調(diào)查發(fā)現(xiàn)是Tay和網(wǎng)絡(luò)上一些有偏激言論的人互動后,被刻意教導(dǎo)出來的,而且微軟也沒有相關(guān)的防范機制。雖然作為產(chǎn)品而言Tay很無辜也很可惜,但公眾心里的刺一旦長出來就沒那么容易被拔掉。
2018年,亞馬遜放棄了一款對女性表現(xiàn)出偏見的AI招聘工具。該工具接受的訓練包含了過去十年內(nèi)投遞給亞馬遜的簡歷,其中以男性為主,導(dǎo)致AI對含有“女性”和“女人”等詞的簡歷學習程度不足,最終形成偏見。2019年,有人發(fā)現(xiàn)一款用于預(yù)測患者預(yù)后的商用AI算法對黑人患者存在偏見。因為該算法主要針對白人患者數(shù)據(jù)進行訓練,導(dǎo)致其預(yù)測黑人患者的假陽性率更高。
Web3主打的去中心化與AI相結(jié)合可能帶來獨特的偏見風險,這種環(huán)境中數(shù)據(jù)的質(zhì)量和可用性都可能存疑,使得精準訓練AI算法變得非常困難。這不僅是因為缺乏切實可行的Web3解決方案,還因為有能力使用它們的人群同樣數(shù)量有限。
Web3初創(chuàng)行業(yè)與企業(yè)中性別比例失衡是導(dǎo)致上述偏見的重要原因之一,截至2022年,女性占據(jù)的技術(shù)職位還不到三成,科技行業(yè)的高管職位中女性比例更低。在Web3相關(guān)企業(yè)中,這種不平衡同樣嚴重。根據(jù)一些統(tǒng)計數(shù)據(jù)與資料,Web3及相關(guān)產(chǎn)業(yè)的初創(chuàng)企業(yè)中,擁有女性創(chuàng)始人的還不到企業(yè)總數(shù)的5%。這種缺乏意味著AI數(shù)據(jù)偏見很可能被男性和白人創(chuàng)始人有意無意識地忽視,久而久之就拖成了引人注目的問題。
03
Web3能否解決問題?
應(yīng)對這些挑戰(zhàn)的一種解決方案是去中心化的數(shù)據(jù)與應(yīng)用市場,允許個人和組織之間安全、透明地交換數(shù)據(jù)。這的確可能有助于降低數(shù)據(jù)偏差的風險,因為它允許在訓練AI算法時使用更廣泛的數(shù)據(jù)。此外還可以利用區(qū)塊鏈技術(shù)保證數(shù)據(jù)的透明性和準確性,使算法不產(chǎn)生偏見。在Web3及相關(guān)的解決方案變得更加主流,并將其吸引力和使用范圍擴大到更廣泛的人群前,尤其是那些對技術(shù)有足夠興趣并負擔得起相關(guān)費用者,獲得足夠保質(zhì)保量的數(shù)據(jù)集來訓練AI系統(tǒng)仍然是可望不可即的目標。
雖然Web3和區(qū)塊鏈現(xiàn)在時常出現(xiàn)在主流新聞中,但此類產(chǎn)品和服務(wù)最有可能吸引的還是初創(chuàng)企業(yè)和技術(shù)社區(qū)的人們,在全球市場中所占的份額始終有限,而且這些社區(qū)多樣性的缺乏也是肉眼可見的。類似的道理,要準確統(tǒng)計在Web3初創(chuàng)公司工作的人數(shù)占全球人口的百分比同樣很難。近年來,Web3及相關(guān)產(chǎn)業(yè)在美國創(chuàng)造了大約三百萬個工作崗位,如果算上那些被裁撤掉的崗位這個數(shù)字應(yīng)該更大。如果將這一數(shù)字與美國總?cè)丝诩s3.34億相比還不到1%,因此可以說Web3雖然先進,但遠不能代表當前適齡工作的人口數(shù)量。