“看”這個(gè)動(dòng)作一直被認(rèn)為是生物所獨(dú)有的。
當(dāng)工程師第一次“教”計(jì)算機(jī)“看”這個(gè)動(dòng)作時(shí),他們理所當(dāng)然地認(rèn)為計(jì)算機(jī)可以像人類(lèi)眼睛一樣進(jìn)行觀看。
約克大學(xué)(York University)計(jì)算機(jī)科學(xué)家約翰·托索斯(John Tsotsos)說(shuō)道,上世紀(jì)六十年代有關(guān)計(jì)算機(jī)視覺(jué)的第一批提案“顯然是由人類(lèi)視覺(jué)的特征所驅(qū)動(dòng)的”。
但是現(xiàn)在情況已經(jīng)大不相同,人工“神經(jīng)網(wǎng)絡(luò)”處理可視數(shù)據(jù)的方式與人類(lèi)的越來(lái)越相似。
計(jì)算機(jī)視覺(jué)已經(jīng)從三維發(fā)展到了廣闊的領(lǐng)域。現(xiàn)在,計(jì)算機(jī)可以在某些視覺(jué)任務(wù)上勝過(guò)人類(lèi),比如利用圖片特征分清狗和狼,以及檢測(cè)醫(yī)學(xué)圖像中的異常情況。
人類(lèi)的反饋過(guò)程與計(jì)算機(jī)視覺(jué)的前饋方法完全不同
基于計(jì)算機(jī)視覺(jué)的神經(jīng)網(wǎng)絡(luò)過(guò)程很簡(jiǎn)單。把接收的圖像作為輸入端,通過(guò)一系列步驟對(duì)其進(jìn)行處理,首先檢測(cè)像素,然后檢測(cè)邊緣和輪廓,檢測(cè)整個(gè)對(duì)象,最終對(duì)它們的外觀做出猜測(cè)。由于整個(gè)過(guò)程屬于流水線設(shè)置,又被稱為“前饋”系統(tǒng)。
關(guān)于人類(lèi)視覺(jué),我們不了解得太多,但我們知道人類(lèi)視覺(jué)并非如此。
在最近的文章“數(shù)學(xué)模型揭示視覺(jué)秘密”(A Mathematical Model Unlocks the Secrets of Vision)中,Quanta介紹了一種新的數(shù)學(xué)模型,該模型試圖解釋人類(lèi)視覺(jué)的中心奧秘:大腦的視覺(jué)皮層是如何根據(jù)從視網(wǎng)膜接收到的少量信息,創(chuàng)造出生動(dòng)、準(zhǔn)確的世界表象的。
該模型表明,視覺(jué)皮層通過(guò)一系列神經(jīng)反饋回路實(shí)現(xiàn)這一“壯舉”,這些反饋回路將來(lái)自外界數(shù)據(jù)的細(xì)微變化細(xì)化為我們眼前出現(xiàn)的各種圖像。此反饋過(guò)程與計(jì)算機(jī)視覺(jué)的前饋方法非常不同。
康奈爾大學(xué)神經(jīng)科學(xué)家喬納森·維克多(Jonathan Victor)表示:“這項(xiàng)工作確實(shí)發(fā)現(xiàn)了人類(lèi)視覺(jué)皮層與計(jì)算機(jī)視覺(jué)之間的復(fù)雜程度和某種意義上的差異。”
計(jì)算機(jī)視覺(jué)根本不需要人類(lèi)視覺(jué)的啟發(fā)?
在某些方面,答案顯然是否定的。
傳入視覺(jué)皮層的信息受到解剖學(xué)的限制:相對(duì)較少的神經(jīng)將視覺(jué)皮層與外界聯(lián)系在一起,這限制了皮質(zhì)使用的視覺(jué)數(shù)據(jù)量。
而計(jì)算機(jī)不必?fù)?dān)心帶寬問(wèn)題,因此沒(méi)有必要使用稀疏信息方法。“如果有無(wú)限的計(jì)算能力和內(nèi)存,是否還需要稀疏任何東西?答案可能不是!”Tsotsos說(shuō)。
但是Tsotsos認(rèn)為無(wú)視人類(lèi)的視野是錯(cuò)誤的。
目前計(jì)算機(jī)擅長(zhǎng)的分類(lèi)任務(wù)是計(jì)算機(jī)視覺(jué)的“低端成果”。為了完成這些任務(wù),只需要在海量數(shù)據(jù)集中找到相關(guān)性即可。對(duì)于更高階的任務(wù),例如從多個(gè)角度掃描對(duì)象以確定是什么,這種關(guān)聯(lián)法就行不通了,可能還是需要人類(lèi)把關(guān)。
去年接受Quanta采訪時(shí),人工智能先驅(qū)Judea Pearl提出這一觀點(diǎn)時(shí)更為籠統(tǒng),他認(rèn)為相關(guān)性訓(xùn)練從長(zhǎng)遠(yuǎn)來(lái)看不會(huì)使AI系統(tǒng)發(fā)展得太遠(yuǎn)。
例如,人類(lèi)視覺(jué)的關(guān)鍵特征是具有雙重能力。我們接收視覺(jué)信息的同時(shí)對(duì)所見(jiàn)所聞得出結(jié)論。當(dāng)這個(gè)結(jié)論令人震驚時(shí),我們會(huì)再看一遍,通常第二眼便會(huì)告訴我們真實(shí)的情況。以前饋方式工作的計(jì)算機(jī)視覺(jué)系統(tǒng)通常缺乏此功能,這導(dǎo)致計(jì)算機(jī)視覺(jué)系統(tǒng)有時(shí)甚至不能完成某些簡(jiǎn)單的視覺(jué)任務(wù)。
計(jì)算機(jī)視覺(jué)系統(tǒng)值得期待
人類(lèi)視覺(jué)還缺少另一個(gè)更微妙,更重要的東西。
人類(lèi)的視覺(jué)系統(tǒng)是需要幾年的時(shí)間才能成熟的。Tsotsos和他的合作者在2019年發(fā)表的一篇論文中發(fā)現(xiàn),人們直到17歲左右才能夠完全在混亂擁擠的找到他們的目標(biāo)。其他研究顯示,識(shí)別面孔的能力一直不變直到20歲左右才有所改善。
計(jì)算機(jī)視覺(jué)系統(tǒng)通過(guò)分析大量數(shù)據(jù)來(lái)工作。它們的基礎(chǔ)架構(gòu)是固定的,并且不會(huì)像大腦發(fā)育的方式一樣隨著時(shí)間的推移而成熟,如果基礎(chǔ)機(jī)制如此不同,結(jié)果是否也會(huì)不一樣?Tsotsos認(rèn)為計(jì)算機(jī)視覺(jué)系統(tǒng)值得期待。
他說(shuō):“用這些深度學(xué)習(xí)方法中進(jìn)行學(xué)習(xí)與人類(lèi)學(xué)習(xí)無(wú)關(guān)——天花板即將到來(lái)了,這些系統(tǒng)將無(wú)法繼續(xù)發(fā)展。”