前段時間,英國公司登記處的一份文件披露了 DeepMind 2018 年的財務(wù)狀況:這家 AI 科技公司的凈虧損由 2017 年的 3.41 億美元增加至 2018 年的 5.72 億美元,今年到期的債務(wù)高達 12.656 億美元。如此巨額的虧損引起了廣泛關(guān)注,也引發(fā)了人們對于 AI 前景的質(zhì)疑。近日,紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)教授 Gary Marcus 就在《連線》上撰文表達了對于 DeepMind 虧損狀況、深度強化學(xué)習(xí)現(xiàn)狀以及 AI 未來走向的深度思考。
DeepMind 可能是全世界最大的專注于科研的 AI 公司,但它正在遭受巨額虧損,過去三年的虧損超過 10 億美元,而且未來 12 個月還有超過 10 億美元的債務(wù)需要償還。
這是否意味著 AI 正在分崩離析呢?
事實并非如此。做研究需要花錢,DeepMind 每年都在做更多的研究。這家公司的確花了很多錢,而且可能比以往任何 AI 研究公司都要多。但與科學(xué)界那些大型項目相比,DeepMind 花的錢還遠(yuǎn)遠(yuǎn)算不上史無前例。例如,大型強子對撞機每年可能要花費 10 億美元,而發(fā)現(xiàn)希格斯玻色子的花費估計超過了 100 億美元。當(dāng)然,實現(xiàn)電影里那種真正的機器智能(即 AGI)要花費的還遠(yuǎn)不止這些。
盡管如此,DeepMind 的巨額虧損(從 2016 的 1.54 億美元到 2017 年的 3.41 億美元再到 2018 年的 5.72 億美元)還是值得我們反思。在我看來,這其中有三個核心問題:
DeepMind 是否選對了方向?
從谷歌母公司 Alphabet 的角度來看,這種規(guī)模的投資是否合理?這種虧損會對 AI 的整體發(fā)展產(chǎn)生什么影響?
對于第一個問題,我們有理由持懷疑態(tài)度。DeepMind 將大部分人力和財力投入到了深度強化學(xué)習(xí)的技術(shù)研究中。該技術(shù)結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí),前者主要用于模式識別,后者則是以獎勵信號(如游戲中的得分或勝負(fù))為基礎(chǔ)的學(xué)習(xí)。
深度強化學(xué)習(xí)技術(shù)是 DeepMind 在 2013 年提出的,他們在一篇名為《Playing Atari with Deep Reinforcement Learning》的論文中展示了單個神經(jīng)網(wǎng)絡(luò)系統(tǒng)如何玩轉(zhuǎn)各種雅達利游戲,如打磚塊(Breakout)、太空侵略者(Space Invaders)等,而且證明神經(jīng)網(wǎng)絡(luò)的表現(xiàn)優(yōu)于人類。
這篇論文稱得上一篇工程杰作,可能也是 2014 年谷歌收購 DeepMind 的關(guān)鍵催化劑。這項技術(shù)的持續(xù)發(fā)展推動了 DeepMind 在圍棋和《星際爭霸》游戲?qū)怪腥〉贸晒Α?/p>
但問題是,這項技術(shù)的適用范圍非常狹窄。以打磚塊游戲為例,輕微的改變(如將拍子往上移動幾個像素)就會導(dǎo)致網(wǎng)絡(luò)性能大幅下降。DeepMind 的《星際爭霸》AI 也非常受限,只有在單一地圖上選擇某種角色才會達到超越人類的水平,但隨著地圖和角色數(shù)目的增加,該 AI 的性能也大幅降低。要轉(zhuǎn)換角色,你需要從頭訓(xùn)練整個系統(tǒng)。
從某些方面來說,深度強化學(xué)習(xí)是一種渦輪增壓式的記憶方式:使用該技術(shù)的系統(tǒng)能夠完成令人驚嘆的壯舉,但它們對自己在做什么知之甚少。因此,現(xiàn)有的系統(tǒng)缺乏靈活性,也就無法在現(xiàn)實世界發(fā)生變化時做出補充(DeepMind 提前 48 小時預(yù)測急性腎損傷的 AI 系統(tǒng)也受到了這種質(zhì)疑)。
深度強化學(xué)習(xí)還需要大量數(shù)據(jù),如 AlphaGo 的訓(xùn)練需要完成數(shù)百萬次自我博弈,這一訓(xùn)練量遠(yuǎn)遠(yuǎn)大于人類成長為世界級棋手所需的訓(xùn)練量。這就需要谷歌級別的算力,也就意味著在現(xiàn)實世界中,多數(shù)用戶僅僅因為算力開銷就會望而卻步。據(jù)估算,AlphaGo 的訓(xùn)練花費了 3500 萬美元,這相當(dāng)于 12760 個人腦三天三夜不眠不休所消耗的能量。
但這還只是經(jīng)濟方面的考量。正如我和 Ernest Davis 在即將出版的新書《Rebooting AI》中所談到的,真正的問題在于可靠性。迄今為止,深度強化學(xué)習(xí)還只能在控制良好、很少出現(xiàn)意外的環(huán)境中進行。圍棋就是一個完美的環(huán)境,其規(guī)則和棋盤兩千年來都未發(fā)生變化,但在現(xiàn)實世界的許多場景中,你不會想要依賴這項技術(shù)。
商業(yè)變現(xiàn)能力有限
出現(xiàn)上述問題的部分原因在于,只有極少數(shù)的現(xiàn)實世界問題像 DeepMind 所研究的游戲那樣受到各種限制,DeepMind 還未發(fā)現(xiàn)深度強化學(xué)習(xí)的任何大規(guī)模商業(yè)應(yīng)用場景。Alphabet 對 DeepMind 的投資已經(jīng)達到了 20 億美元左右(包括 2014 年收購時所花費的 6.5 億美元)。相比之下,DeepMind 創(chuàng)造的直接經(jīng)濟回報卻少得可憐,2018 年只有 1.25 億美元,其中包含利用強化學(xué)習(xí)幫助谷歌降低服務(wù)器冷卻開銷所縮減的費用。
DeepMind 用來解決圍棋問題的那一套技術(shù)可能無法用來解決現(xiàn)實世界中需要用 AI 來解決的問題,如癌癥治療和清潔能源。對此,IBM 已經(jīng)在 Watson 項目中經(jīng)歷了慘痛的教訓(xùn)。Watson 在某些情況下表現(xiàn)良好,但在其他情況下并不好用,出現(xiàn)了心臟病漏診等問題,而一年級的醫(yī)學(xué)生都不會犯這種錯誤。
當(dāng)然,這也許只是時間問題。DeepMind 至少從 2013 年就開始了深度強化學(xué)習(xí)的研究,也許他們需要更長時間,很少有科學(xué)進展能夠在一夜之間實現(xiàn)商業(yè)化。DeepMind 或其他公司可能會通過結(jié)合其他技術(shù)開發(fā)出更深層次、更穩(wěn)定的深度強化學(xué)習(xí)系統(tǒng),也可能不會。
深度強化學(xué)習(xí)最終可能會成為另一個「晶體管」,走出實驗室并最終改變世界,也可能只是一種學(xué)術(shù)好奇心,John Maynard Smith 曾經(jīng)將這種好奇心描述為「尋找問題的解決方案」(solution in search of problem)。我個人猜測,深度強化學(xué)習(xí)會介于兩者之間,它會成為一種有用并被廣泛采用的工具,但不會改變世界。
沒有人可以將 DeepMind 排除在外,盡管其現(xiàn)有的戰(zhàn)略不像許多人期望的那樣豐富。深度強化學(xué)習(xí)可能并非是通向通用人工智能的坦途,但 DeepMind 自身是一個令人敬畏的公司,它組織嚴(yán)密、資金充足,擁有數(shù)百名博士。在圍棋、《星際爭霸》上取得的成功令其獲得了更多的曝光,越來越多的人才加入其中。如果 AI 的風(fēng)向發(fā)生變化,DeepMind 很可能會轉(zhuǎn)向另一個方向。顯然,DeepMind 是無可匹敵的。
對于期望過高的擔(dān)憂
最后一個問題是關(guān)于 DeepMind 的財務(wù)狀況會對 AI 總體發(fā)展產(chǎn)生怎樣的影響,這個問題很難回答。如果炒作大于產(chǎn)出,就容易帶來另一個「AI 寒冬」,到時即便是支持者也不會愿意投資。投資界也會注意到這種巨額損失;如果 DeepMind 的損失每年翻一番,即使是 Alphabet 也會被逼退。這不只是錢的問題。目前為止還看不到切實的財務(wù)成果。在某個時候,投資者可能不得不重新調(diào)整他們對于 AI 的熱情。
迄今為止,通用人工智能還停留在炒作的層面,實現(xiàn)起來還很困難。盡管我們已經(jīng)在廣告、語音識別等幾個有限的領(lǐng)域取得了重大進展,但 AI 無疑還有很長的路要走。對大數(shù)據(jù)集進行合理分析所帶來的好處是不可否認(rèn)的,即使只是以有限的形式,AI 已經(jīng)成為一種有力的工具。業(yè)界對 AI 的熱情可能沒那么高了,但他們也不會徹底退出。
我想給出以下預(yù)測:
十年后,我們將得出結(jié)論:深度強化學(xué)習(xí)在 2010 年代后期被高估了,其他許多重要領(lǐng)域則受到了忽視。我們在強化學(xué)習(xí)上每投入一美元,在其他領(lǐng)域就少投入一美元,比如可能產(chǎn)生有價值洞見的人類認(rèn)知科學(xué)。
機器學(xué)習(xí)領(lǐng)域的研究者現(xiàn)在經(jīng)常會問,「兒童學(xué)習(xí)語言、理解世界所需的能量和數(shù)據(jù)比現(xiàn)有的 AI 系統(tǒng)要少得多,他們是如何做到的?」如果花更多時間、金錢和精力去解決后面這個問題,我們也許能早點實現(xiàn)通用人工智能。