你相信算法嗎?
無論你的答案是什么,我們的生活已經(jīng)被算法徹底改變了——我們聊微信、刷抖音、逛淘寶的背后都是無數(shù)個算法在支撐,算法從開始簡單的 If、then、else 規(guī)則變成了越來越復(fù)雜以至于連程序員也不清楚內(nèi)部運作規(guī)則的深度神經(jīng)網(wǎng)絡(luò),它在變得復(fù)雜的同時也在徹底的變革每一個產(chǎn)業(yè),人們離不開算法,媒體喜歡算法,在一個個故事的渲染下,算法似乎變得無所不能,衛(wèi)夕今天先帶大家一起看一些算法讓人嘆為觀止的案例——
1. 近年來美國馬里蘭州等地出現(xiàn)一種新型的毒品犯罪:在豪宅里關(guān)起門來,利用 LED 燈種大麻。
在美帝,沒有證據(jù)根本不可能破門搜查,警察非常頭疼,然而在 2010 年一個警察局通過電力公司搞到了當(dāng)?shù)刂悄茈姳淼臄?shù)據(jù),通過對用電量和用電模式的算法分析,他們成功地判斷并抓到了一批毒販!
2.2017 年,硅谷的一位工程師想去 Reddit 工作,他思路清奇——首先寫了一篇水平很高的、關(guān)于如何改進(jìn) Reddit 推薦算法的文章,接著他通 Reddit 網(wǎng)站 CEO 霍夫曼在 Facebook 公開賬號、尋找到一些獨特的廣告定向,比如霍夫曼的性別、年齡、居住地、關(guān)注了哪些主頁等等,然后他通過 Facebook 的廣告系統(tǒng)、使用這些定向算法把自己寫的文章投放給了 197 個人,居然就精準(zhǔn)命中了霍夫曼,而這次推廣僅僅花了他 10.6 美元,最后他的文章被霍夫曼認(rèn)可,而他也被成功錄取。
3.2012 年 7 月,一位憤怒的爸爸走進(jìn)了美國零售巨頭塔吉特的弗吉尼亞分店,要求見經(jīng)理,原因是他還在上高中的女兒收到了塔吉特寄送給她女兒的嬰兒床和嬰兒衣服的優(yōu)惠券——" 你們這是什么意思?我的女兒只有 16 歲,你們是在鼓勵她懷孕嗎?"
塔吉特的經(jīng)理匆忙道歉表示可能是他們的工作失誤,然而 2 個月后,這位父親打電話過來為自己之前的行為表示抱歉——她女兒的確懷孕了,原來,塔吉特設(shè)計的一套特別的算法系統(tǒng),它會根據(jù)零售用戶的購買歷史來判斷一個女生是否處于孕育期,這個算法是如此準(zhǔn)確,以至于它居然比孩子的父親更早地知道女孩是否懷孕。
的確,這三個故事只是算法應(yīng)用的冰山一角,如今,算法可以識別我們的聲音和圖像,算法似乎在變得無所不能。
然而,算法真的有那么美好嗎,在算法給我們帶來便利的同時我們是否真的認(rèn)真思考過算法帶來的弊端,我們是否真的思考過如何面對算法給可能給我們帶來的災(zāi)難。
今天的算法其實還遠(yuǎn)沒有到完善的地步,很多被稱之為人工智能的東西某種意義上只能算人工智障,衛(wèi)夕帶大家看幾個大型算法翻車現(xiàn)場——
一、翻車的超級計算機
2017 年 3 月 19 日,香港地產(chǎn)大亨李建勤(Li Kin-Kan)在迪拜飯店的午餐中第一次遇見到了意大利金融家科斯塔(Raffaele Costa ),科斯塔向李描述了一個機器人對沖基金,他的基金由奧地利的 AI 公司 42.CX 開發(fā)的一款名為 K1 的超級計算機管理,K1 通過抓取實時新聞和社交媒體的數(shù)據(jù),以深度學(xué)習(xí)算法評估投資者的情緒并預(yù)測美國股票期貨,然后發(fā)送指令進(jìn)行交易。
香港地產(chǎn)大亨李建勤(Li Kin-Kan)
李看到之后非常感興趣,在接下來的幾個月中,Costa 與 Li 共享了 K1 的模擬結(jié)果,數(shù)據(jù)表明 K1 取得了超過兩位數(shù)的回報,李很興奮,把自己的 25 億美元的資產(chǎn)交給了 K1 來打理,準(zhǔn)備在金融市場中大賺一筆。
然而現(xiàn)實是殘酷的,超級計算機 K1 并沒有給李帶來豐厚的回報,相反到 2018 年 2 月,它經(jīng)常虧損,甚至一天有時候就虧損超過 2000 萬美元,李建勤終于明白算法在金融市場是不起作用的,他一怒之下將科斯塔告上了法庭,聲稱他夸大了超級計算機的作用。
二、失控的亞馬遜智能助手
2017 年 7 月 5 日,德國漢堡一名叫奧利弗的普通居民在朋友家住了一個晚上,他不知道的是,在他離開的那個晚上,家里的亞馬遜智能音箱 Alexa 突然開始在凌晨 1:50 以最高的音量開始播放搖滾樂,熟睡的鄰居被震天的音箱吵醒,無奈的鄰居們最終只能選擇報警。
警察到達(dá)現(xiàn)場選擇撬開門鎖破門而入,才發(fā)現(xiàn)罪魁禍?zhǔn)字皇且粋€小小的智能音箱,他們拔下了 Alexa 的插頭,然后給奧利弗安裝了新的鎖,而在朋友家過了一夜的奧利弗對此事件一無所知,再次回到家時,一頭霧水的奧利弗只能跑一趟警局并且支付了一筆并不便宜的換鎖賬單。
無獨有偶,2017 年 1 月,加利福尼亞州的 CW6 電視頻道報道了一個 Amazon Echo 揚聲器的漏洞,說的是 Alexa 識別不了家里的成員,于是一位加州 5 歲的小女孩就用智能音箱給自己買了超過 300 美元的餅干,當(dāng)他們父母收到貨的時候都傻眼了,而讓人啼笑皆非的是,主持人播這條新聞的時候為了演示說了一句:"Alexa,給我訂購一個玩具屋 ",結(jié)果圣地亞哥多人報告說,他們的音箱收到了電視的語音真的下單購買了玩具屋,亞馬遜后來不得不為此道歉。
三、 變壞的微軟機器人
2016 年 3 月,微軟在 Twitter 上開發(fā)了一個名為 Tay 的 AI 聊天機器人,該機器人是通過挖掘網(wǎng)民對話而構(gòu)建的,Tay 的第一句話是 " hellooooooo world !!!",起初它善解人意、活潑可愛,和 Twitter 上的網(wǎng)民聊得非常開心。
然而,在短短的 12 小時之后,Tay 從一位友好的機器人變成了一個滿嘴臟話、充滿種族主義并說出 " 女權(quán)主義者都應(yīng)該死在地獄里燒死 " 惡魔機器人,這讓開發(fā)它的微軟經(jīng)歷了場公關(guān)噩夢,微軟被迫迅速將 Tay 關(guān)閉,而這離它上線還沒有超過 24 小時;
Tay 是人工智能映射人類偏見的一個縮影,目前的人工智能算法最本質(zhì)的規(guī)則就是它需要有大量的數(shù)據(jù)對其進(jìn)行訓(xùn)練——如果訓(xùn)練的數(shù)據(jù)本身就帶著偏見、錯誤以及極端的思想,訓(xùn)練的結(jié)果就會偏離正常的結(jié)果 ........
四、危險的沃森癌癥機器人
2013 年,IBM 與德克薩斯大學(xué) MD 安德森癌癥中心合作開發(fā) "Watson for Oncology",即沃森的癌癥機器人,它的目標(biāo)是識別并治愈癌癥,IBM 在新聞稿中宣稱 " 沃森癌癥機器人的使命是讓臨床醫(yī)生能夠從癌癥中心豐富的患者和研究數(shù)據(jù)庫中發(fā)現(xiàn)寶貴的見解 ",然而最后的結(jié)果怎么樣呢?
新聞機構(gòu) StatNews 在 2018 年 7 月查閱了 IBM 的內(nèi)部文件,發(fā)現(xiàn) IBM 的 Watson 有時候會給醫(yī)生提出錯誤的、甚至是危險的癌癥治療建議,其中包括 Watson 建議醫(yī)生給有嚴(yán)重出血癥狀的癌癥患者使用會加重出血的藥物 ........
于是 2017 年 2 月,在花費了 6200 萬美元之后,德克薩斯大學(xué)宣布終止和 IBM 合作的這個項目,算法有時候?qū)︶t(yī)療行業(yè)而言并不管用;
五、充滿歧視的再犯罪算法
在美國,罪犯在出獄之前會進(jìn)行一個再犯罪的評估,用于判斷是否合適出獄已經(jīng)出獄后是否需要采取必要監(jiān)視措施。
那么如何評估一個罪犯的再犯罪概率呢?答案是——算法!美國司法體系采用了一家名為 Northpointe 的公司推出的風(fēng)險評估產(chǎn)品,Northpointe 的核心產(chǎn)品是根據(jù) 137 個問題的答案通過特定的算法得出的一組分?jǐn)?shù),這些問題一些是和罪犯本身相關(guān)的直接個人信息,比如之前犯罪的類型、日期、頻率、出生年月、性別等等,有一些則是提問由罪犯本人回答,比如 " 您的父母或者兄弟姐妹中有一個曾經(jīng)被送進(jìn)監(jiān)獄或監(jiān)獄嗎?"、" 您有多少朋友碰過大麻?"、" 你是否同意饑餓的人有權(quán)偷竊?" 之類的問題。
值得注意的是,在這些問題中種族不是問題之一,即所有的這些問題都不會提及罪犯的種族;
然而近年有學(xué)者發(fā)現(xiàn),該算法給黑人帶來的高再犯風(fēng)險評分是白人的兩倍,在洛杉磯市,一名輕微犯罪的黑人婦女被標(biāo)記為 " 高風(fēng)險 ",而一名曾兩次武裝搶劫的白人被標(biāo)記為 " 低風(fēng)險 ",而結(jié)果也證明那位婦女并沒有犯罪,但那名男子則繼續(xù)進(jìn)行盜竊,這一風(fēng)險評估產(chǎn)品目前在美國引起了黑人團(tuán)體廣泛的質(zhì)疑;
六、形形色色的人工智障
事實上,算法造成的啼笑皆非甚至危險的故事廣泛存在,至少在現(xiàn)階段,在很多領(lǐng)域,人工智能在某些時候只能稱之為人工智障——
美國 911 以后反恐成為國家安全的重點,美國安全部門會根據(jù)姓名、出生地、宗教信仰、人臉識別算法、歷史行為數(shù)據(jù)——例如所有旅行數(shù)據(jù)等等,會對每一位航空旅客是恐怖分子的嫌疑度進(jìn)行打分,而經(jīng)常出現(xiàn)一些無辜的人因為疑似恐怖分子,而經(jīng)常在機場被羈留檢查,多次錯過飛機,這樣的事件每年會超過 500 起;
谷歌的安卓系統(tǒng)會自帶一個 App —— Photos,這個加入了人工智能算法的應(yīng)用能自動識別人臉、物品等,功能十分強大,然而 2015 年 6 月,一位網(wǎng)民在 Twitter 上發(fā)帖稱:" 谷歌,我的女朋友不是大猩猩 ",原來,谷歌 Photos 將他女朋友的照片識別成了大猩猩;
Facebook 具有一項稱為 " 回憶 " 的功能,可以向用戶突出顯示前幾年在此日期發(fā)生的事情,想起令人難忘的回憶,但 Facebook 還是低估了一些極端情況,例如它會在家人死亡的周年紀(jì)念日顯示家人的照片,或者它可能會要求自己向已經(jīng)去世的朋友說生日快樂。
2011 年,一本有關(guān)蒼蠅的生物學(xué)教科書在亞馬遜上的定價為 2300 萬美元。后來發(fā)現(xiàn)原因是兩個賣家,他們設(shè)置了算法來觀察彼此的價格,然后重置自己的價格。
2012 年,《華爾街日報》報道了辦公用品公司史泰博的算法歧視行為,史泰博先判斷用戶所在的位置附近有沒有賣很多賣辦公用品的實體店,如果 20 公里之內(nèi)沒有,則判斷用戶大概率只能在網(wǎng)上買,于是它的網(wǎng)上商城就會給這些顧客顯示一個很高的價格,在這個場景里,它針對的不是一個人,而是這個區(qū)域里的一群人,即使附近的人互相交流也看不出來。
中國很多城市的智能交通攝像頭配備了人工智能算法,用來檢測和識別在紅燈時亂穿馬路者,然而最近寧波的攝像頭意外曝光了格力總裁董明珠亂穿馬路的照片,原來攝像頭將董明珠在公交車廣告上的頭像識別成了行人;
2018 年 3 月 20 日凌晨,Uber 公司在美國坦佩市進(jìn)行自動駕駛道路測試時,撞到一名叫伊萊恩的 49 歲中年女子,致后者當(dāng)場死亡,當(dāng)時,伊萊恩正走在人行橫道,汽車在發(fā)生撞擊前 5.6 秒鐘將其錯誤識別為汽車,撞擊前 5.2 秒時又將其識別為其他物體,此后系統(tǒng)發(fā)生了混亂,在 " 汽車 " 和 " 其他 " 之間搖擺不定,浪費了大量的時間,因此車輛沒有及時剎車,釀成悲??;
好,看到了如此多 " 人工智能 " 變 " 人工智障 " 的車禍現(xiàn)場,我們需要思考的是——這些匪夷所思的問題是如何產(chǎn)生的?看過衛(wèi)夕長文的朋友都會很熟悉,衛(wèi)夕通常更感興趣的是背后那個更加深層次的底層邏輯,接下來我們就一起看一看算法故障背后的原因,我把它總結(jié)為三類——
1.算法本身或者算法背后的人產(chǎn)生技術(shù)錯誤——只要是人寫的算法,就一定有出錯的概率,比如德國居民那個凌晨發(fā)飆的智能音箱、失控的 Uber 自動駕駛汽車就是程序上的 Bug 導(dǎo)致的,這一類我們克服的辦法其實相對簡單。但對于另一種人為算計消費者的算法有時候可能我們就無能為力了,比如上邊的辦公用品網(wǎng)站史泰博的價格歧視;滴滴曾經(jīng)也被公眾投訴 " 同一段距離不同的人打車價格不一致 " 的 " 大數(shù)據(jù)殺熟 " 現(xiàn)象,無論真實與否,這類問題往往很難識別,因此也加大了監(jiān)管的難度;
2.算法對于人性部分的忽略——你可能聽過這個段子:一個美女通過一個最現(xiàn)代的人工智能設(shè)備找男朋友,輸入條件是:1、要帥;2、有車,人工智能給出的結(jié)果是象棋;這盡管是一個段子,但從某種意義上也說明了現(xiàn)在的人工智能離真正理解人類的感情和行為依然有巨大的鴻溝,F(xiàn)acebook 提醒你給去世的親人發(fā)生日祝福背后本質(zhì)的原因在于 AI 無法真正理解死亡對于人類意味著什么;
3.算法訓(xùn)練數(shù)據(jù)本身的偏見——目前人工智能的基本邏輯是先構(gòu)建一個合適的機器學(xué)習(xí)模型,然后用大量的數(shù)據(jù)去訓(xùn)練模型,然后用訓(xùn)練好的模型再來預(yù)測新的數(shù)據(jù),這里邊有一個非常重要前提就是輸入數(shù)據(jù)的重要性,比如上邊再犯罪率的預(yù)測之所以產(chǎn)生問題就是因為輸入的數(shù)據(jù)中本身就存在偏見,如果現(xiàn)實世界數(shù)據(jù)本身就存在偏見,那么預(yù)測結(jié)果也一定會有偏見;
總結(jié)一下,人工智能的大趨勢必然會繼續(xù)發(fā)展,但我們也需要清醒地意識到它現(xiàn)階段的局限性和問題,不要夸大和渲染它的神奇性,如何從系統(tǒng)的角度解決算法帶來的這些匪夷所思的問題,歡迎在留言區(qū)發(fā)表你的看法!