究其原因,如果按照 Gartner 的「炒作曲線」來解釋,則是由于新技術爆發(fā)時的公眾熱度更容易被媒體、資本所捕捉,而隨著技術落地過程中暴露出的一系列實際困難,會部分程度上導致公眾的悲觀,從而讓這項新技術逐步淡出公眾視野。
人工智能也是如此。在過去的 2017 年,圍繞人工智能的場景應用正在成為國內(nèi)外巨頭、創(chuàng)業(yè)新貴押注的焦點,然而不管是圖像、語音還是自然語言交互,盡管單項技術都不同程度地獲得巨大發(fā)展,但尚不足以與實際場景結(jié)合,形成全新的傳播熱點,一個顯著的案例,AlphaGo 在 2017 年烏鎮(zhèn)橫掃中國圍棋高手的新聞遠遠不及單挑李世石那樣吸引全球關注。
另一個原因,則是更多新技術、新概念的出現(xiàn),這在中國的表現(xiàn)尤為明顯。2017 下半年,特別是 2017 年年底,區(qū)塊鏈成為中國互聯(lián)網(wǎng)行業(yè)的「新技術」,這種由虛擬貨幣所推動的技術幾乎「瞬間」占據(jù)了投資人、主流科技媒體、各種自媒體的討論議題里。
上述兩個原因或多或少讓人工智能暫時擺脫了聚光燈的關注,也讓我們有更多的理性去看待這個過去幾年被譽為「改變?nèi)祟惷\」的技術,到底是一次面向遠方偉大征程的開始,還是又一次從寒冬到盛夏再到寒冬的短暫更替。
人工智能的遠方依然令人向往
事實上,關于人工智能的「遠方風景」已經(jīng)被重復了六十多年。自 1956 年「人工智能」一詞來到這個星球上,一代代的數(shù)學家、計算機科學家都在為之不懈努力,但到底何為「人工智能」卻存在太多理解角度。
作為達特茅斯會議組織者之一的約翰·麥卡錫,一直認為「人工智能」一詞除了是暗示機器可以去完成人類可以完成的工作之外,和人類行為毫無關系。
而與麥卡錫專注數(shù)學邏輯模擬人類大腦的做法不同,另一位達特茅斯的參會者馬文·明斯基則早早看到了神經(jīng)網(wǎng)絡的重要性,但頗具諷刺意味的是,也正是明斯基在某種程度上否認了神經(jīng)網(wǎng)絡的可行性,導致基于人工神經(jīng)網(wǎng)絡的研究長期排除在人工智能「主流」研究之外。
而就在麥卡錫離開 MIT,扛起斯坦福大學人工智能研究大旗之時,道格拉斯·恩格爾巴特正在努力將另一種「智能」帶入計算機行業(yè)。
這位北歐人的后裔并沒有麥卡錫的「遠大志向」,而是在思考如何將技術去「提升」人類現(xiàn)有的技能,他終其一生都在研究計算機技術至于人類的意義,成為人機交互的「一代宗師」。
在硅谷資深記者約翰·馬爾科夫的《與機器人共舞》中,記錄了麥卡錫的「人工智能」與恩格爾巴特的「增強智能」之間的恩怨情仇,「在已經(jīng)過去的50年中,麥卡錫和恩格爾巴特的理論仍然各自為政,他們最為核心的沖突仍然懸而未決。一種方法要用日益強大的計算機硬件和軟件組合取代人類;另一種方法則要使用相同的工具,在腦力、經(jīng)濟、社會等方面拓展人類的能力?!?/p>
如今,這兩種理念在全世界范圍內(nèi)依然有不少支持者。伊隆·馬斯克與馬克·扎卡伯格口水戰(zhàn),霍金的末日預言與凱文·凱利的批判一度成為 2017 年各大科技媒體爭先報道的消息,但這一切討論卻排除了這個領域最有發(fā)言權的一線研究者,無論是 Facebook 人工智能實驗室負責人 Yan Lecun 還是深度神經(jīng)網(wǎng)絡「教父」般的 Hinton,其冷靜而客觀的分析,都無法進入大眾視野。
另一方面,掌握巨大傳播資源的巨頭公司則在塑造一個被技術賦能的美好未來。
過去的兩年,亞馬遜、Google、阿里巴巴等讓人工智能走入越來越多的家庭,通過語音交互的智能音箱,語音識別、自然語言處理等技術逐步落地,還讓越來越多的用戶感受到人工智能的威力;百度、英特爾、Google 還在不斷向公眾傳達自動駕駛的美好未來,那些制作精良又充滿未來感的視頻不斷刷新著公眾對于駕駛的所有想象力;一場場科技峰會/發(fā)布會上,人工智能正在進入不同行業(yè),它可以讓你的手機拍照更好看,它可能是醫(yī)院醫(yī)生的助手,它也可以在工廠里為提升產(chǎn)能貢獻自己的能力,還會扮演著城市公共安全保衛(wèi)者的角色......
就這樣,這兩年內(nèi),公眾在「人工智能如何幫xxx」的話術中開啟新的一天,又在「人工智能將徹底顛覆XXX」的描述中入睡,每隔若干個小時,就有一個新行業(yè)被人工智能所改變,每隔若干天,就有一家人工智能創(chuàng)業(yè)公司拿了上億美金的融資,每隔若干月,「自動駕駛即將上路」、「虛擬女朋友」的消息再重復一次。
然而,這一切事關遠方的描述,無論是馬斯克的人類末日場景還是扎克伯格的烏托邦世界,都跳過了這個行業(yè)如今的「茍且」。
當下的茍且:軟件、硬件與應用
坦率來說,上文中所有關于「人工智能」進步的說法,都應該換成「深度神經(jīng)網(wǎng)絡」,或者換句話說,過去幾年所謂人工智能的進步,都來自深度神經(jīng)網(wǎng)絡的快速發(fā)展。
然而,盡管幾乎全世界的計算機/互聯(lián)網(wǎng)巨頭都投入到神經(jīng)網(wǎng)絡的研究之中,卻依然在處在一個非常初級的階段,包括以下三個方面:
軟件層面:被人寄予厚望的強化學習也難有突破;
硬件層面:群雄逐鹿;
應用層面:圖像、語音之外還剩下什么?
先說軟件層面。作為 2017 年《MIT 商業(yè)評論》評選的年度十大技術,強化學習曾在 AlphaGo 擊敗各路圍棋高手的對弈中發(fā)揮了重要作用。強化學習的基本原理,是一種和環(huán)境交互過程的「學習」過程,這種動態(tài)的學習過程非常適合在一些沒有特定規(guī)則、實時反饋的場景中,比如工業(yè)機器人或自動駕駛。
這是一種令人聽起來就激動的機器學習模型,這幾乎也是人類學習周遭事物的方式。以駕駛為例,人類司機需要結(jié)合路況來實施調(diào)整自己的駕駛行為,當下自動駕駛系統(tǒng)中,感知系統(tǒng)可以被深度學習解決,而決策系統(tǒng)和控制系統(tǒng),則很有可能是強化學習所能發(fā)揮作用的領域。
但當下除了 AlphaGo 利用自動對弈進行強化學習之外,其他實際應用并不現(xiàn)實,原因就在于,當這一算法面臨現(xiàn)實社會數(shù)百個乃至幾千個環(huán)境變量的挑戰(zhàn)時,這種交互過程能否從始至終地保持絕對可控還無法保證,因此,短期內(nèi),這個算法還無法真正實現(xiàn)應用。
其次,在硬件領域,針對深度神經(jīng)網(wǎng)絡的競爭日益白熱化。英偉達、英特爾、寒武紀、Google、華為、ARM、阿里巴巴 等公司正在緊鑼密鼓地推出各種硬件產(chǎn)品——用于訓練和運行深度神經(jīng)網(wǎng)絡的高性能、可定制的處理器。
英偉達股價兩年內(nèi)翻了 6 倍,英特爾不惜重金收購的 Nervana、Altera,其目的都是要在這個領域快速成為標準和規(guī)則的制定者。但圍繞硬件發(fā)展路線以及創(chuàng)業(yè)路徑,依然有諸多不確定性,比如,GPU、FPGA 以及 TPU 還無法有明確的優(yōu)劣好壞之分,再比如,近兩年的量子計算機,又會給機器學習、深度學習帶來怎樣的變化?
事實上,和其他所有計算行業(yè)一樣,深度神經(jīng)網(wǎng)絡硬件的最終勝者,一定是那些能提供低價同時強大計算能力、并且能讓絕大多數(shù)開發(fā)者/研究者快速上手的產(chǎn)品,但在 2018 年的現(xiàn)在,我們還看不到。
第三,則是深度神經(jīng)網(wǎng)絡技術落地的關鍵環(huán)節(jié):應用。過去幾年,圍繞人工智能落地的應用實例時,無外乎有兩大領域:
圍繞圖像/視頻的處理,從識別到后期處理,最直接的案例,手機相機的美顏功能;
基于語音的虛擬/實體產(chǎn)品,從手機虛擬助理到智能音箱;
上述兩大領域的落地案例在不同行業(yè)又有不同的展現(xiàn)形式。在消費端,2017 年華為、蘋果都在其新一代旗艦手機中加入 NPU(神經(jīng)網(wǎng)絡處理單元),就是圍繞神經(jīng)網(wǎng)絡在處理圖像上的能力,用一個單獨的處理單元讓手機完成大量拍照、圖片的處理工作;國內(nèi) 2017 年出現(xiàn)了一股智能音箱熱,其背后的技術驅(qū)動力則是語音識別、語義理解、自然語言理解等技術的整合;而在企業(yè)端,從 AWS、Google Cloud 到阿里云,云服務商正在將圖像/視頻的處理能力打包為 API,供開發(fā)者和企業(yè)調(diào)用;垂直領域,基于圖像/視頻技術,讓國內(nèi)安防行業(yè)迎來一個史無前例的春天;也是基于圖像/視頻技術,醫(yī)療影像的變革正徐徐而來......
然而當我們試圖尋找上述單點技術之外的落地實例時,卻會失望地發(fā)現(xiàn)這可能就是故事的全部。畢竟,語音、圖像/視頻與文本,構(gòu)成了互聯(lián)網(wǎng)上的所有內(nèi)容,整個互聯(lián)網(wǎng)行業(yè)努力的方向,都是要讓這些內(nèi)容最終變成結(jié)構(gòu)化的數(shù)據(jù),實現(xiàn)更高效的分析和再利用。
然而,這一切需求的誕生,與其說是一種「增強智能」——技術賦能行業(yè),倒不如說是,這是一種更實際、更功利的選擇,讓深度學習去解決最有可能解決的問題,并包裝為人工智能的福祉,其落腳點還是互聯(lián)網(wǎng)公司最擅長的領域:數(shù)據(jù)。
「數(shù)據(jù)就是石油」,這是最近兩年內(nèi)經(jīng)常聽到一種說法,2017 年一期《經(jīng)濟學人》文章里,有一張圖表說明了諸多問題:
右圖是公司財報會議上對于人工智能的關注程度,從 2014 年開始就是極度陡峭的增長線,而與之對應的左圖里,IDC 制造的「digital universe」指代的是每年數(shù)據(jù)生產(chǎn)和復制的數(shù)量,其增速也是指數(shù)級的。
這至少說明了兩個問題:其一,人工智能的確是當下最熱的命題之一;其二,人工智能的再次回歸,是海量數(shù)據(jù)帶來的最直接反應,這也就不難理解,為何當下所有標榜「人工智能」的應用,幾乎都是數(shù)據(jù)密集領域的產(chǎn)物了。
寫在最后,超越不可能
如果以「遠方」的標準來衡量當下的「茍且」,深度神經(jīng)網(wǎng)絡遠非人工智能的未來。在一個媒體效應遠大于實際效應的當下,公眾往往會將深度學習、機器學習、人工智能混為一談;又或者,誤以為 AlphaGo 就是深度學習的產(chǎn)物。
我們還在期待更好的算法,從根本上解決「黑盒子」難題,從而可以讓機器決策過程變得更透明,這在當下尤為重要。Google 面臨歐盟反壟斷調(diào)查時的首要問題是:為什么這個搜索結(jié)果要排在另一個結(jié)果之前?再比如,當越來越多標榜將深度學習應用到金融領域的場景里,當用戶的貸款請求被深度學習算法所駁回時,能否解釋這其中的理由到底是什么?
我們也同樣需要一個沒有偏見的算法。 2017 年,IBM Watson 在被引入美國法院審判時也出現(xiàn)諸多爭議,由于過往數(shù)據(jù)顯示黑人犯罪比例高,導致 Watson 在決策時常常像人類法官一樣做出帶有偏見性的決策。而在一個男權之上的社會,大量公司高管都是男性,此時倘若引入深度學習作為招聘工具,則很有可能招來更多男性。
這種根深蒂固的偏見幾乎普遍存在于所有的機器學習算法中,但很顯然,深度學習最難測試與調(diào)整,同時又由于其廣泛的應用場景變得更加引人矚目,微軟幾次三番上線在 Twitter 上線聊天機器人,又幾次三番地下架,其原因就是當一個深度學習應用程序面臨真實社會場景時,其所做作為已經(jīng)超出了應用開發(fā)者的控制,甚至都無法讓其「浪子回頭」,唯一的做法就是下架。
你當然可以說這不是算法的問題,而是社會環(huán)境的自然映射,可問題的關鍵在于,圍繞人工智能,甚至圍繞機器學習,還有大量的選擇余地,深度學習不應該、也沒有這么大能力承擔如此重大的任務,在人類邁向智能社會的偉大征程之中,我們理應有更好的工具。