自人工智能發(fā)展早期以來(lái),科學(xué)家們就一直夢(mèng)想著創(chuàng)造出能夠“觀察”真實(shí)世界的計(jì)算機(jī)??紤]到人類社會(huì)對(duì)于視頻要素的高度依賴,以代碼形式實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)自然成為人工智能不能回避的核心課題之一。
但與其他眾多AI發(fā)展目標(biāo)一樣,計(jì)算機(jī)視覺(jué)同樣是那種說(shuō)起來(lái)容易、實(shí)現(xiàn)起來(lái)卻極難的挑戰(zhàn)。1966年,麻省理工學(xué)院的科學(xué)家們發(fā)起“夏季視覺(jué)項(xiàng)目(The Summer Vision Project)”,希望在兩個(gè)月之內(nèi)開(kāi)發(fā)出一套能夠識(shí)別圖像中物體及背景區(qū)域的計(jì)算機(jī)系統(tǒng)。但事實(shí)證明,短短一個(gè)暑假根本不夠解決問(wèn)題。直到二十一世紀(jì)的第二個(gè)十年,圖像分類器與物體檢測(cè)器才獲得進(jìn)入主流應(yīng)用的充分靈活性與可靠性。
過(guò)去幾十的中,機(jī)器學(xué)習(xí)與神經(jīng)科學(xué)的進(jìn)步幫助我們?cè)谟?jì)算機(jī)視覺(jué)方面取得了長(zhǎng)足進(jìn)步。但是,要想構(gòu)建起能夠與人類一樣靈活觀察世界的AI系統(tǒng),我們還有很長(zhǎng)的路要走。
哈佛大學(xué)醫(yī)學(xué)院Gabriel Kreiman教授揚(yáng)鞭的《生物與計(jì)算機(jī)視覺(jué)(Biological and Computer Vision)》一書探討了人類與動(dòng)物如何處理視覺(jué)數(shù)據(jù),并展望了我們要如何在計(jì)算機(jī)上重現(xiàn)這種強(qiáng)大的識(shí)別能力。
Kreiman在書中講解了生物與計(jì)算機(jī)視覺(jué)之間的差異,包括介紹數(shù)十億年的演變?nèi)绾螢槲覀儙?lái)復(fù)雜的視覺(jué)處理系統(tǒng),以及如何通過(guò)生物學(xué)研究成果構(gòu)建起更好的計(jì)算機(jī)視覺(jué)算法。
硬件差異
在這本書的序言部分,Kreiman寫道,“我對(duì)生物與計(jì)算系統(tǒng)中的連接電路特別感興趣。生物視覺(jué)是數(shù)百萬(wàn)年間持續(xù)進(jìn)化的產(chǎn)物。而在開(kāi)發(fā)計(jì)算模型時(shí),我們當(dāng)然沒(méi)必要重新發(fā)明輪子。我們可以直接學(xué)習(xí)生物解決視覺(jué)問(wèn)題的方法,并以此為基礎(chǔ)構(gòu)建起更強(qiáng)大的算法。”
的確,對(duì)視覺(jué)皮層的研究已經(jīng)成為計(jì)算機(jī)視覺(jué)與AI設(shè)計(jì)靈感的重要來(lái)源。但在全面實(shí)現(xiàn)視覺(jué)數(shù)字化之前,科學(xué)家們還必須克服生物與計(jì)算機(jī)視覺(jué)之間巨大的硬件鴻溝。生物視覺(jué)系統(tǒng)運(yùn)行在皮層細(xì)胞與有機(jī)神經(jīng)元相互連接而成的網(wǎng)絡(luò)之上;與之不同,計(jì)算機(jī)視覺(jué)則運(yùn)行在由晶體管組成的電子芯片當(dāng)中。
因此,視覺(jué)理論必須先與計(jì)算機(jī)的底層原理相統(tǒng)一,再實(shí)現(xiàn)與生物視覺(jué)相等的效能。Kreiman將此稱為“戈?duì)柕下蹇耸浇鉀Q方案”,即抽象級(jí)別屬于既不過(guò)度復(fù)雜、又不過(guò)于簡(jiǎn)單的水平。
例如,早期計(jì)算機(jī)視覺(jué)曾經(jīng)嘗試以一種高度抽象的方式達(dá)成目標(biāo),其中忽略了人腦與動(dòng)物大腦的既有視覺(jué)識(shí)別模式。但事實(shí)證明,這種方法效率低下且極易出錯(cuò)。而另一方面,在分子水平上研究并直接模擬大腦,則沒(méi)有任何現(xiàn)實(shí)可行性。
Kreiman在采訪中表示,“我不是所謂「復(fù)制生物學(xué)」思路的忠實(shí)擁護(hù)者。生物學(xué)中的很多元素應(yīng)該得到抽象與整理。我們并不需要2萬(wàn)種蛋白質(zhì)、細(xì)胞質(zhì)加復(fù)雜的樹(shù)突狀幾何結(jié)構(gòu)才能實(shí)現(xiàn)視覺(jué)能力。我們既應(yīng)該適當(dāng)剝離不必要的生物學(xué)細(xì)節(jié),但又不能單純研究具體行為——這種抽象度又過(guò)高了。”
在書中,Kreiman將新皮層回路的戈?duì)柕下蹇肆慷榷x為每毫秒發(fā)生的神經(jīng)元活動(dòng)。神經(jīng)科學(xué)與醫(yī)學(xué)技術(shù)的進(jìn)步,使得研究毫秒級(jí)粒度下單一神經(jīng)元的活動(dòng)成為可能。
這些研究的成果幫助我們開(kāi)發(fā)出不同類型的人工神經(jīng)網(wǎng)絡(luò)。所謂人工神經(jīng)網(wǎng)絡(luò)是一種AI算法,能夠輕松模擬哺乳動(dòng)物大腦皮質(zhì)區(qū)域的運(yùn)作。近年來(lái),神經(jīng)網(wǎng)絡(luò)已被證明是視覺(jué)數(shù)據(jù)中實(shí)現(xiàn)模式識(shí)別功能的最佳算法,并成為多種計(jì)算機(jī)視覺(jué)應(yīng)用中的關(guān)鍵組成部分。
架構(gòu)差異
最近幾十年來(lái),深度學(xué)習(xí)領(lǐng)域迎來(lái)了大量革命性創(chuàng)新,也讓計(jì)算機(jī)得以更從容地模擬生物視覺(jué)中的某些功能。受到動(dòng)物視覺(jué)皮層研究的啟發(fā),卷積層開(kāi)始在從視覺(jué)數(shù)據(jù)中查找模式方面發(fā)揮巨大作用。池化層有助于概括卷積層的輸出,并保證其不會(huì)對(duì)視覺(jué)模式的漂移太過(guò)敏感。卷積層加上池化層,就足以識(shí)別出從簡(jiǎn)單模式(拐角、邊緣等)到復(fù)雜對(duì)象(人臉、椅子、汽車等)的各類圖像內(nèi)容。
但是,人工神經(jīng)網(wǎng)絡(luò)中使用的高級(jí)架構(gòu)與我們對(duì)哺乳動(dòng)物視覺(jué)皮層的認(rèn)知之間仍然存在錯(cuò)位。
Kreiman強(qiáng)調(diào),“遺憾的是,「層」這個(gè)字眼仍然比較含糊。計(jì)算機(jī)科學(xué)當(dāng)中,人們會(huì)使用層來(lái)表示不同的處理階段(各層基本類似于大腦中的不同區(qū)域)。但在生物學(xué)中,大腦中的各個(gè)區(qū)域包含有6個(gè)皮質(zhì)層(及更多次級(jí)結(jié)構(gòu))。乍看上去,這種六層結(jié)構(gòu)應(yīng)該非常關(guān)鍵(各層間的連通性,有時(shí)也稱為標(biāo)準(zhǔn)微回路),但我們并不清楚要怎么把這些回路添加到神經(jīng)網(wǎng)絡(luò)當(dāng)中。有些人認(rèn)為這種六層結(jié)構(gòu)已經(jīng)得到了一定體現(xiàn)(例如歸一化操作),但這里肯定還有不少需要充實(shí)的空間。”
同樣的,Kreiman還在書中提到,大腦中的信息會(huì)朝著多個(gè)方向移動(dòng)。光信號(hào)由視網(wǎng)膜移動(dòng)至顳下皮層,再被傳輸至視覺(jué)皮層的V1、V2及其他層。與此同時(shí),每個(gè)層還同時(shí)向前一層提供反饋。在各層中,神經(jīng)元彼此交互并傳遞信息,而所有交互作用與往來(lái)聯(lián)系在實(shí)質(zhì)上是幫助大腦填補(bǔ)視覺(jué)輸入中的空白,借此在信息不完整時(shí)做出推斷。
相反,在人工神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)通常只在單一方向上移動(dòng)。卷積神經(jīng)網(wǎng)絡(luò)屬于“前饋網(wǎng)絡(luò)”,意味著信息只會(huì)從輸入層一步步轉(zhuǎn)向較高層與輸出層。
目前也存在一種名為“反向傳播”的反饋機(jī)制,有助于糾正錯(cuò)誤并調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)。但這種反向傳播會(huì)帶來(lái)高昂的計(jì)算成本,而且僅能在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練期間發(fā)揮作用。我們也不清楚反向傳播是否真的直接對(duì)應(yīng)于皮質(zhì)層的反饋機(jī)制。
在另一方面,強(qiáng)調(diào)將較高層的輸出與前一層輸入相結(jié)合的遞歸神經(jīng)網(wǎng)絡(luò),在計(jì)算機(jī)視覺(jué)中的使用仍然比較有限。
在視覺(jué)皮層(右)中,信息會(huì)沿多個(gè)方向移動(dòng)。但在神經(jīng)網(wǎng)絡(luò)(左)中,信息只沿單一方向移動(dòng)。
在交流當(dāng)中,Kreiman認(rèn)為向人工神經(jīng)網(wǎng)絡(luò)引入橫向及縱向信息流,可能有助于其更好地與生物視覺(jué)系統(tǒng)相匹配。
他認(rèn)為,“橫向連接(即同一層內(nèi)各單元間的連接)對(duì)于圖形補(bǔ)全等計(jì)算任務(wù)可能至關(guān)重要。而縱向連接(即由上層單元到下層單元間的連接)對(duì)于做出預(yù)測(cè)、喚起注意力、合并上下文信息等也許具有關(guān)鍵意義。”
他還提到,大腦神經(jīng)元具有“現(xiàn)有網(wǎng)絡(luò)中所缺少的復(fù)雜時(shí)間整合能力。”
目標(biāo)差異
生物進(jìn)化成功發(fā)展出了能夠完成諸多任務(wù)的神經(jīng)架構(gòu)。已經(jīng)有多項(xiàng)研究表明,我們的視覺(jué)系統(tǒng)能夠根據(jù)不同目標(biāo)動(dòng)態(tài)調(diào)節(jié)關(guān)注敏感性。但是,這種靈活性在計(jì)算機(jī)視覺(jué)系統(tǒng)上仍然很難實(shí)現(xiàn)。
目前的計(jì)算機(jī)視覺(jué)系統(tǒng)主要為單一任務(wù)而設(shè)計(jì),例如通過(guò)不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)象分類、對(duì)象定位、按對(duì)象拆分圖像區(qū)域、描述圖像內(nèi)容、生成新圖像等,但這些神經(jīng)網(wǎng)絡(luò)各自只能完成自己份內(nèi)的一項(xiàng)工作。
面對(duì)“應(yīng)該如何以目標(biāo)為中心靈活地傳遞視覺(jué)信息?”這個(gè)問(wèn)題,Gabriel Kreiman教授強(qiáng)調(diào)“在本質(zhì)上,人類能夠根據(jù)同一圖像回答無(wú)數(shù)個(gè)問(wèn)題,包括標(biāo)記對(duì)象、計(jì)算對(duì)象、描述對(duì)象顏色、對(duì)象間的相互作用、各對(duì)象的大小等。我們目前只能構(gòu)建出解決其中一個(gè)問(wèn)題的神經(jīng)網(wǎng)絡(luò),卻無(wú)法通過(guò)單一網(wǎng)絡(luò)同時(shí)解決所有問(wèn)題。雖然也有一些新興算法做出了嘗試,但其水平仍然相當(dāng)原始,遠(yuǎn)不能與人類的表現(xiàn)相提并論。”
綜合差異
對(duì)人類及動(dòng)物來(lái)說(shuō),視覺(jué)往往與嗅覺(jué)、觸覺(jué)和聽(tīng)覺(jué)密切相關(guān)。視覺(jué)皮層、聽(tīng)覺(jué)皮層、體感皮層以及嗅覺(jué)皮層間相互影響并相互提示,幫助人體調(diào)整對(duì)周遭世界的推斷。但在AI系統(tǒng)中,這些元素還只能分別獨(dú)立存在。
我們是否需要建立起這種綜合體系,由此構(gòu)建起更強(qiáng)大的計(jì)算機(jī)視覺(jué)方案?
Kreiman回答道,“作為科學(xué)家,我們習(xí)慣于把問(wèn)題拆解開(kāi)來(lái)分別處理。我個(gè)人認(rèn)為這樣的起點(diǎn)確實(shí)比較合理,例如先實(shí)現(xiàn)視覺(jué),暫時(shí)不考慮嗅覺(jué)或聽(tīng)覺(jué)。這有點(diǎn)像電影工業(yè)早期制作的默片。跨模式用例當(dāng)然值得期待,但我認(rèn)為先把問(wèn)題簡(jiǎn)化也許更有利于獲得研究進(jìn)展。”
但是,生物視覺(jué)本身就與大腦中的各個(gè)復(fù)雜區(qū)域相互關(guān)聯(lián)。在人體中,視覺(jué)離不開(kāi)邏輯、推理、語(yǔ)言及常識(shí)等關(guān)聯(lián)體系。
Kreiman指出,“其實(shí)大部分視覺(jué)問(wèn)題都要求我們把輸入內(nèi)容與原有常識(shí)結(jié)合起來(lái)。”
他以下面這張美國(guó)前總統(tǒng)奧巴馬的照片為例,闡述了自己的思考。
要理解圖片內(nèi)容,需要一定的通識(shí)知識(shí)與社會(huì)知識(shí),例如弄明白體重秤上的人在做什么、奧巴馬在做什么,這需要大量的背景信息。通識(shí)知識(shí)會(huì)讓AI代理意識(shí)到體重秤的作用是測(cè)量體重,物理知識(shí)則指明奧巴馬在給面前的人加力,心理知識(shí)則是人們?cè)诳吹竭h(yuǎn)超預(yù)期的體重指數(shù)時(shí)往往會(huì)感到驚訝。而這也是惡作劇的意義所在。
Kreiman提到,“目前的架構(gòu)明顯做不到這一點(diǎn)。各項(xiàng)信息會(huì)以我們自己意識(shí)不到的方式整合起來(lái),并與腦中儲(chǔ)備的信息相互映射和補(bǔ)充。”
對(duì)語(yǔ)言和常識(shí)的理解本身,就是橫亙?cè)贏I社區(qū)面前的一座高峰。更要命的是,我們甚至不清楚這類問(wèn)題到底能不能以拆解的方式逐步解決;或者說(shuō),只有統(tǒng)一整體處理才有可能帶來(lái)真正的答案。
Kreiman最后總結(jié)道,“終有一天,我們要將認(rèn)知的各個(gè)層面都考慮進(jìn)來(lái),而沒(méi)有語(yǔ)言和邏輯作支撐的視覺(jué)終究不夠可靠。希望我們能在未來(lái)幾年中獲得重大突破,努力將語(yǔ)言、邏輯與視覺(jué)模型統(tǒng)一起來(lái)。”