深度學(xué)習(xí)作為現(xiàn)今炙手可熱的概念而得到學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可,但伴隨這些進(jìn)展而來的還有越來越多對深度學(xué)習(xí)的質(zhì)疑。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要分支,而深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)發(fā)展到一定階段的必然產(chǎn)物。
深度學(xué)習(xí)就像生物神經(jīng)大腦的工作機(jī)理一樣,通過合適的矩陣數(shù)量,多層組織鏈接一起,形成神經(jīng)網(wǎng)絡(luò)“大腦”進(jìn)行精準(zhǔn)復(fù)雜的處理。深度學(xué)習(xí)的出現(xiàn),讓圖像、語音等感知類問題取得了真正意義上的突破??梢哉f,深度學(xué)習(xí)被引入機(jī)器學(xué)習(xí),使其更接近于最初的目標(biāo)——人工智能。
當(dāng)前,以深度學(xué)習(xí)為代表的人工智能技術(shù)取得了飛速的發(fā)展,正落地應(yīng)用于各行各業(yè)。但深度學(xué)習(xí)不是萬能的,深度學(xué)習(xí)的局限性導(dǎo)致其在近幾年的發(fā)展中進(jìn)入了瓶頸。
紐約大學(xué)教授Gary Marcus曾經(jīng)說,深度學(xué)習(xí)是貪婪、脆弱、不透明和淺薄的,而如何面對深度學(xué)習(xí)的貪婪、脆弱、不透明和淺薄,將決定深度學(xué)習(xí)在未來能否行穩(wěn)致遠(yuǎn)。
深度學(xué)習(xí)走向爆發(fā)
20世紀(jì)50年代到70年代初,人工智能研究處于“推理期”。彼時(shí),人們認(rèn)為,只要能賦予機(jī)器邏輯推理能力,機(jī)器就能具有智能。但隨著研究向前發(fā)展,研究人員們意識到,要使機(jī)器具有智能,就必須使機(jī)器擁有知識。在這一階段,機(jī)器學(xué)習(xí)開始萌芽。
1952年,亞瑟·塞繆爾開發(fā)的跳棋程序,創(chuàng)造了“機(jī)器學(xué)習(xí)”這一概念,并將它定義為:“可以提供計(jì)算機(jī)能力而無需顯式編程的研究領(lǐng)域”。機(jī)器學(xué)習(xí)旨在通過給機(jī)器一些原始的“學(xué)習(xí)資料”,讓機(jī)器自動地學(xué)習(xí)如何判斷和輸出相應(yīng)的結(jié)果。
機(jī)器學(xué)習(xí)的發(fā)展誕生了人工神經(jīng)網(wǎng)絡(luò),而深度學(xué)習(xí)正源于對人工神經(jīng)網(wǎng)絡(luò)的研究。當(dāng)前的深度學(xué)習(xí)系統(tǒng)就主要由神經(jīng)網(wǎng)絡(luò)的架構(gòu)、算法以及結(jié)構(gòu)化數(shù)據(jù)三大要素構(gòu)成。其中,神經(jīng)網(wǎng)絡(luò)的架構(gòu)是深度學(xué)習(xí)最基礎(chǔ)也最必要的一環(huán)。網(wǎng)絡(luò)架構(gòu)的選擇讓深度學(xué)習(xí)以一種令給定算法可學(xué)習(xí)的方式來表示數(shù)據(jù)中的結(jié)構(gòu)。
神經(jīng)網(wǎng)絡(luò)的架構(gòu)主要包括前饋神經(jīng)網(wǎng)絡(luò),循環(huán)網(wǎng)絡(luò)和對稱連接網(wǎng)絡(luò)。前饋神經(jīng)網(wǎng)絡(luò)是實(shí)際應(yīng)用中最常見的神經(jīng)網(wǎng)絡(luò)類型。第一層是輸入,最后一層是輸出,如果有多個(gè)隱藏層,即為“深度”神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是一類以序列數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。
對稱連接網(wǎng)絡(luò)與循環(huán)網(wǎng)絡(luò)相似,只是單元之間的連接是對稱的(在兩個(gè)方向上的權(quán)重相同)。對稱的權(quán)重限制了網(wǎng)絡(luò)模型變化的可能性,從而也限制了網(wǎng)絡(luò)的能力,但同時(shí)也使得其比循環(huán)神經(jīng)網(wǎng)絡(luò)更容易分析。
基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)也展現(xiàn)出過去人工智能不可比擬的優(yōu)勢。2013年初,在《麻省理工科技評論》發(fā)布的“十大突破性技術(shù)”中,“深度學(xué)習(xí)”就作為上榜技術(shù)赫然在列,評論也給出了3-5年內(nèi)即將爆發(fā)的明確時(shí)間周期。
比如,在計(jì)算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)的優(yōu)勢在于它能夠直接從大型圖像數(shù)據(jù)集中自動學(xué)習(xí)復(fù)雜且有用的特征,并且從神經(jīng)網(wǎng)絡(luò)模型的提供的圖像中學(xué)習(xí)并自動提取各種層次的特征。
深度神經(jīng)網(wǎng)絡(luò)性能的顯著提高也是深度學(xué)習(xí)領(lǐng)域迅速發(fā)展的催化劑。2012年,卷積神經(jīng)網(wǎng)絡(luò)AlexNet就以15.8%的top-5錯(cuò)誤率獲得了ILSVRC的冠軍,而當(dāng)年的第二名卻以26.2%的錯(cuò)誤率遠(yuǎn)落后于AlexNet。
根據(jù)ARK的研究,未來15-20年,深度學(xué)習(xí)將為全球股票市場增加30萬億美元的市值。此外,在很多方面,深度學(xué)習(xí)正在創(chuàng)造全新的下一代計(jì)算平臺。2020年,擁有AI技術(shù)的智能音箱在世界范圍內(nèi)回應(yīng)了1000億條語音指令,比2019年增長了75%。
在自動駕駛方面,美國Waymo公司的自動駕駛汽車已經(jīng)在包括舊金山、底特律和鳳凰城在內(nèi)的25個(gè)城市收集了超過2000萬英里的真實(shí)駕駛里程。使用深度學(xué)習(xí)技術(shù)進(jìn)行視頻推薦的中國公司TikTok,也已經(jīng)超越了Snapchat加Pinterest。
可以說,作為人工智能的一種形式,深度學(xué)習(xí)技術(shù)通過利用數(shù)據(jù)自動編寫程序,正在為各行各業(yè)帶來革命性的改變。
貪婪、脆弱、不透明和淺薄的深度學(xué)習(xí)
深度學(xué)習(xí)作為現(xiàn)今炙手可熱的概念,其更好的性能得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可,但伴隨這些進(jìn)展而來的還有越來越多對深度學(xué)習(xí)的質(zhì)疑。深度學(xué)習(xí)暴露的越來越多的弱點(diǎn)正在引起公眾對人工智能的關(guān)注,比如在無人駕駛汽車領(lǐng)域,它們使用類似的深度學(xué)習(xí)技術(shù)進(jìn)行導(dǎo)航,就曾經(jīng)導(dǎo)致了廣為人知的傷亡事故。
Gary Marcus曾經(jīng)指出,深度學(xué)習(xí)是貪婪、脆弱、不透明和淺薄的。
這些系統(tǒng)很貪婪,因?yàn)樗鼈冃枰罅康挠?xùn)練數(shù)據(jù)。對于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類來說,卷積神經(jīng)網(wǎng)絡(luò)對物體的姿勢并不敏感。如果要識別同一個(gè)物體,在位置、大小、方向、變形、速度、反射率、色調(diào)、紋理等方面存在差異,都必須針對這些情況分別添加訓(xùn)練數(shù)據(jù)。
可以說,盡管深度神經(jīng)網(wǎng)絡(luò)在許多任務(wù)中表現(xiàn)良好,但這些網(wǎng)絡(luò)通常需要大量數(shù)據(jù)才能避免過度擬合。遺憾的是,許多場景無法獲得大量數(shù)據(jù),例如醫(yī)學(xué)圖像分析。
深度學(xué)習(xí)是脆弱的。當(dāng)下,深度學(xué)習(xí)網(wǎng)絡(luò)在做分類的時(shí)候,很難輸出一個(gè)百分百肯定的結(jié)果,這也就意味著網(wǎng)絡(luò)并沒有完全理解這些圖片,只能通過各種特征的組合來完成大概的預(yù)測。
一根香蕉,人工智能卻能將其識別為烤面包機(jī)。即使它使用了在自動駕駛、語音理解和多種AI應(yīng)用中表現(xiàn)出色的強(qiáng)大深度學(xué)習(xí)技術(shù)。也就是說,即便人工智能已經(jīng)見過了幾千張香蕉、蛞蝓、蝸牛和類似外觀的圖片,能夠?qū)π螺斎氲膱D像預(yù)測其中物體的類別,但依然容易被誤導(dǎo)。圖像中只需要多一張貼紙,就能讓系統(tǒng)的預(yù)測產(chǎn)生嚴(yán)重偏離。
而顯然,不管人們用來訓(xùn)練的圖片庫有多大都是有限的,從而有些圖片是沒有在我們的訓(xùn)練庫內(nèi)的(對抗樣本),這些圖片很可能跟已有的圖片具有極其類似的特征,從而出現(xiàn)將對抗樣本完全分錯(cuò)類的情況。
深度學(xué)習(xí)是不透明的。與傳統(tǒng)機(jī)器學(xué)習(xí)不同,深度學(xué)習(xí)并不遵循數(shù)據(jù)輸入、特征提取、特征選擇、邏輯推理、預(yù)測的過程,而是由計(jì)算機(jī)直接從事物原始特征出發(fā),自動學(xué)習(xí)和生成高級的認(rèn)知結(jié)果。雖然深度學(xué)習(xí)來自于人類的大腦的工作機(jī)制,但依然無法真正理解不同模型的各個(gè)參數(shù)的含義,從而導(dǎo)致整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)成為了一個(gè)黑盒模型,除了一些超參以外,很難進(jìn)行內(nèi)部的調(diào)參。
而這個(gè)黑盒模型,不只意味著不能觀察,還意味著即使計(jì)算機(jī)試圖向我們解釋,人們也無法理解——被描述為黑匣子的深層神經(jīng)網(wǎng)絡(luò)何時(shí)能夠提供令人滿意的答案,何時(shí)不能?應(yīng)用深度學(xué)習(xí)系統(tǒng)時(shí),將相應(yīng)領(lǐng)域知識、約束條件和對稱性考慮進(jìn)來的最佳方式是什么?如何確定和量化訓(xùn)練和測試數(shù)據(jù)是否來自不同來源等都是深度學(xué)習(xí)需要回答卻至今未答的謎題。
深度學(xué)習(xí)還是淺薄的。當(dāng)下的深度學(xué)習(xí)網(wǎng)絡(luò)大部分傾向于表征學(xué)習(xí),而非真正的智能,很依賴于其訓(xùn)練數(shù)據(jù),很難從有限的數(shù)據(jù)中學(xué)習(xí)到全局的東西。同時(shí),在一些不斷變化的情景下,這些網(wǎng)絡(luò)也很難有很好的表現(xiàn)。
去年,OpenAI的GPT-3在外網(wǎng)走紅。GPT-3作為著名人工智能科研公司OpenAI開發(fā)的文字生成人工智能,以天文數(shù)字級別的1,750億參數(shù)量引發(fā)轟動。GPT-3是迄今為止最強(qiáng)大的語言模型,龐大的參數(shù)量也讓GPT-3幾乎無所不能,包括答題、翻譯、寫文章,甚至是數(shù)學(xué)計(jì)算和編寫代碼。
但GPT-3類似人類的輸出和驚人的通用性只是優(yōu)秀技術(shù)的結(jié)果,而不是真正的聰明。GPT-3的智能是天文數(shù)字級別的參數(shù)量和運(yùn)算的疊加。
可以看見,雖然深度學(xué)習(xí)在各科學(xué)學(xué)科的研究中已經(jīng)取得了巨大的成功,但深度學(xué)習(xí)在持守優(yōu)勢的同時(shí),也有一定的局限性,包括數(shù)據(jù)的局限和智能的局限。
與此相對應(yīng)的,就是為了突破局限而生的數(shù)據(jù)合成、遷移學(xué)習(xí)、3D對象理解等新生學(xué)科。任何領(lǐng)域的根本性進(jìn)展和爆發(fā)必然要經(jīng)歷時(shí)間的考驗(yàn),這些挑戰(zhàn)是真實(shí)存在的,也正在被解釋。