走進(jìn)一家科技展館,AI導(dǎo)覽機(jī)器人向你行“注目禮”;肚子餓了走進(jìn)無人超市,AI售貨員親切地提醒你是否需要購物袋;不想開車了,叫一輛無人車,讓“老司機(jī)”載你出行……AI正在為我們打開一個新“視”界,然而疑惑的是,AI的“眼睛”在哪兒?它是如何一步步“看懂”這個世界的呢?
一、人類的“看”與“AI的“看”,是一樣的嗎?
對于人類而言,“看”幾乎是與生俱來的能力——出生幾個月的嬰兒看到父母的臉會露出笑容,暗淡的燈光下我們?nèi)阅苷J(rèn)出幾十米之外的朋友。眼睛賦予我們僅憑極少的細(xì)節(jié)就能認(rèn)出彼此的能力,然而這項(xiàng)對于人類來說“輕而易舉”的能力,對計算機(jī)來說確實(shí)舉步維艱。
因?yàn)閷τ谌祟悂碚f,“看見”的過程,往往只在零點(diǎn)幾秒內(nèi)發(fā)生,而且?guī)缀跏峭耆乱庾R的行為,也很少會出差錯(比如當(dāng)我們?nèi)祟惪吹揭恢回埡鸵恢还窌r,盡管它們的體型很類似,但我們還是馬上能夠區(qū)分它們分別是貓和狗),而對計算機(jī)而言,圖像僅僅是一串?dāng)?shù)據(jù)。
近幾年AI技術(shù)的迅猛發(fā)展,使得“計算機(jī)視覺”成為最熱的人工智能子領(lǐng)域之一。而計算機(jī)視覺的目標(biāo)是:復(fù)制人類視覺的強(qiáng)大能力。
我們的大腦中有非常多的視網(wǎng)膜神經(jīng)細(xì)胞,有超過40億以上的神經(jīng)元會處理我們的視覺信息,視覺占據(jù)著人對外界70%的感知能力,所以“看”是我們理解這個世界最重要的部分。
人類的大腦能完美地處理好這一系列的視覺信息,以此幫助我們理解世界、做出判斷。當(dāng)你看見一張狗的圖片,你能輕松地知道這只狗的毛發(fā)、品種,甚至能大概知道它的身高體重。無論這張圖片是否模糊、有噪點(diǎn),或者條紋,但是AI就會“犯傻”了。
為什么會這樣呢?
因?yàn)橹厮苋祟惖囊曈X并不只單單是一個困難的課題,而是一系列、環(huán)環(huán)相扣的過程。
二、AI的“偏愛”:紋理
研究認(rèn)為,人看的是相對高層的語義信息,比如目標(biāo)的形狀等;計算機(jī)看的則是相對底層的細(xì)節(jié)信息,比如紋理。也就是說,一只“披著羊皮的狼”,人類與AI的意見并不相同。
AI的神經(jīng)網(wǎng)絡(luò)架構(gòu)就是根據(jù)人的視覺系統(tǒng)開發(fā)的。德國圖賓根大學(xué)科學(xué)家團(tuán)隊(duì)做了一組這樣的實(shí)驗(yàn):他們用特殊的方法對圖片像素進(jìn)行“干擾處理”,讓像素降低,再用這個圖像訓(xùn)練神經(jīng)網(wǎng)絡(luò),在后續(xù)識別這些被“人為扭曲干擾”的圖像時,系統(tǒng)的表現(xiàn)比人好,但是如果圖像扭曲的方式稍有不同(在人眼看起來扭曲方式并無不同),算法就完全無能為力了。
到底是發(fā)生了什么變化?即便是加入極其少量的噪點(diǎn),為何還是會發(fā)生如此大的變化?
答案就是紋理。當(dāng)在圖像中加入噪點(diǎn),圖中對象的形狀不會受到影響,但是局部的架構(gòu)會快速扭曲。
更有趣的是另一組實(shí)驗(yàn)。研究人員將一種動物的形狀與另一種動物的紋理拼在一起,制作成圖片,將一頭大象的皮披在一只豬的輪廓上,或者將鐵罐制作成一只小貓。他們制作幾百張這種“拼接照片”,再給它們貼上“豬”、“貓咪”的標(biāo)簽,用不同的算法進(jìn)行測試。最終,系統(tǒng)給出的答案是:大象、鐵罐。由此更能表明,計算機(jī)確實(shí)關(guān)注的是紋理。
多倫多約克大學(xué)計算機(jī)視覺科學(xué)家JohnTsotsos指出,“線段組按相同的方式排列,這就是紋理”。
這也說明,人類與機(jī)器的“看”有明顯區(qū)別。當(dāng)然,隨著技術(shù)的發(fā)展,算法會越來越精準(zhǔn),AI正在向人類視覺逐步靠近。
三、AI究竟是怎么去“看”的?
1.算法模型是AI的“大腦”
如果說人類通過“智慧的大腦”來認(rèn)識世界,那么算法模型就是AI的“大腦”。
AI目標(biāo)是創(chuàng)造設(shè)計出具有高級智能的機(jī)器,其中的算法和技術(shù)部分借鑒了當(dāng)下對人腦的研究成果。很多當(dāng)下流行的AI系統(tǒng)使用的人工神經(jīng)網(wǎng)絡(luò),就是模擬人腦的神經(jīng)網(wǎng)絡(luò),建立簡單模型,按照不同的連接方式組成的網(wǎng)絡(luò)。
機(jī)器正是通過復(fù)雜的算法和數(shù)據(jù)來構(gòu)建模型,從而獲得感知和判斷的能力。
這些網(wǎng)絡(luò)跟人腦一樣可以進(jìn)行學(xué)習(xí),比如學(xué)習(xí)模式識別、翻譯語言、學(xué)習(xí)簡單的邏輯推理,甚至創(chuàng)建圖像或者形成新設(shè)計。
其中,模式識別是一項(xiàng)特別重要的功能。因?yàn)槿祟惖?ldquo;識別”依賴于自身以往的經(jīng)驗(yàn)和知識,一旦面對數(shù)以萬計的陌生面孔,就很難進(jìn)行識別了。而AI的“殺手锏”就是處理海量數(shù)據(jù),這些神經(jīng)網(wǎng)絡(luò)具有數(shù)百萬單位和數(shù)十億的連接。
2.AI如何高度“復(fù)制”人的眼睛?
神經(jīng)網(wǎng)絡(luò)是圖像處理的“得力助手”。作為計算機(jī)視覺核心問題之一的圖像分類,即給輸入圖像分配標(biāo)簽的任務(wù),這個過程往往與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)不可分割。簡單來說,神經(jīng)網(wǎng)絡(luò)是最早出現(xiàn),也是最簡單的一種深度學(xué)習(xí)模型。
深度學(xué)習(xí)的許多研究成果,都離不開對大腦認(rèn)知原理的研究,尤其是視覺原理的研究。諾貝爾醫(yī)學(xué)獎獲得者DavidHubel和TorstenWiesel發(fā)現(xiàn)人類視覺皮層結(jié)構(gòu)是分級的。
比如,人在看一只氣球時,大腦的運(yùn)作過程是:“氣球”進(jìn)入視線(信號攝入)——大腦皮層某些細(xì)胞發(fā)現(xiàn)“氣球”的邊緣和方向(初步處理)——判定“氣球”是圓形(抽象)——確定該物體是“氣球”(進(jìn)一步抽象)。
那么,可不可以利用人類大腦的這個特點(diǎn),構(gòu)建一個類似的多層神經(jīng)網(wǎng)絡(luò),低層的識別圖像的初級特征,若干底層特征組成更上一層特征,最終通過多個層級的組合,最終在頂層做出分類呢?
答案當(dāng)然是肯定的。這也就是深度學(xué)習(xí)系統(tǒng)中最重要的一個算法——卷積神經(jīng)網(wǎng)絡(luò)(CNN)的靈感來源。
CNN具有輸入層、輸出層和各種隱藏層。其中一些層是卷積的,它將結(jié)果經(jīng)過分析,再傳遞給連續(xù)的層。這過程模擬了人類視覺皮層中的一些動作。
由于這種特點(diǎn),CNN十分擅長處理圖像。同樣,視頻是圖像的疊加,因此同樣擅長處理視頻內(nèi)容。生活中比較常見的自動駕駛、人臉識別、美圖秀秀以及視頻加工等都用到了CNN。
經(jīng)典的圖像分類算法就是基于強(qiáng)大的CNN設(shè)計的。例如,一只貓的圖像,對計算機(jī)來說,只是一串?dāng)?shù)據(jù),這時候,神經(jīng)網(wǎng)絡(luò)第一層會通過特征來檢測出動物的輪廓,第二層將這些輪廓組合再次檢測形成一些簡單形狀,例如動物的耳朵、眼睛等,第三層檢測這些簡單形狀所構(gòu)成的動物身體部位,如腿、頭等,最后一層檢測這些部位的組合,從而形成一只完整的貓。
由此可見,每一層神經(jīng)網(wǎng)絡(luò)都會對圖像進(jìn)行特征檢測、分析、判斷,再將結(jié)果傳遞給下一層神經(jīng)網(wǎng)絡(luò)。實(shí)際上,比這個案例中使用神經(jīng)網(wǎng)絡(luò)的層次深度更復(fù)雜的情況,在生活中更多。
為了更好地訓(xùn)練AI,就需要大量的被標(biāo)記的圖像數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)將每個圖像與標(biāo)簽對應(yīng)、聯(lián)系起來,還可以將之前未見過的圖像與標(biāo)簽進(jìn)行配對。
這樣,AI系統(tǒng)就能夠梳理各種圖像、識別圖像中的元素,不再需要人工標(biāo)記輸入,讓神經(jīng)網(wǎng)絡(luò)自我學(xué)習(xí)。
三、計算機(jī)視覺:一門研究“看”的學(xué)問
對于AI系統(tǒng)而言,處理好視覺感知如同眼睛對于人類而言是一樣重要的。也正是因?yàn)橐曈X感知對AI的重要性,計算機(jī)視覺(CV)成為了一門研究如何使機(jī)器“看”的科學(xué)。
但是很多人容易將計算機(jī)視覺與機(jī)器視覺(MV)混淆,盡管他們有共同點(diǎn),但仍有差異。
相較于機(jī)器視覺側(cè)重于量的分析,計算機(jī)視覺主要是對質(zhì)的分析,比如分類識別,這是一個蘋果那是一條狗;或者做身份確認(rèn),比如人臉識別,車牌識別;或者做行為分析,比如人員入侵,徘徊,人群聚集等。
計算機(jī)視覺并不僅僅停留在淺層的感知層面,大量高級智能與視覺密不可分。如果計算機(jī)能真正理解圖像中的場景,真正的智能也將不再遙遠(yuǎn)??梢哉f,計算機(jī)視覺本身蘊(yùn)含更深遠(yuǎn)的通用智能的問題。
隨著技術(shù)的不斷成熟,計算機(jī)視覺的應(yīng)用場景愈加廣泛,從消費(fèi)者到企業(yè),計算機(jī)視覺技術(shù)在各大領(lǐng)域都有著一席之地。如面向消費(fèi)者市場的AR/VR、機(jī)器人、無人駕駛、自動駕駛汽車等,面向企業(yè)市場的醫(yī)療圖像分析、視頻監(jiān)控、房地產(chǎn)開發(fā)優(yōu)化、廣告插入等。
在這些已經(jīng)落地的應(yīng)用案例中,無法忽視的問題是很多項(xiàng)目都處于小范圍的試用階段。相關(guān)理論的不完善使得這些先行者與創(chuàng)新者遇到不少挑戰(zhàn)。如缺少可用于AI模型訓(xùn)練的大規(guī)模數(shù)據(jù)集,以及動態(tài)圖像識別、實(shí)時視頻分析等技術(shù)瓶頸有待突破。
四、GAN算法賦予AI“想象力”
目前AI對圖像的處理不僅限于進(jìn)行圖像分類,常見的還有AI對老舊、破損圖像的修復(fù)。我們在觀看一些經(jīng)典的、年代久遠(yuǎn)的老電影時,往往對其“高糊畫質(zhì)”難以接受。
用傳統(tǒng)的方式對這些低畫質(zhì)的電影進(jìn)行修復(fù),速度慢就不提,而如果遇到圖像缺失部分很大的情況,傳統(tǒng)方法也無力回天。
但是AI的效率就高了,能夠通過機(jī)器學(xué)習(xí)和模型訓(xùn)練來填充細(xì)節(jié),提高畫質(zhì),再利用神經(jīng)網(wǎng)絡(luò)上色,最后進(jìn)行轉(zhuǎn)錄和人臉識別,半天就完成了。對于原圖像缺失的部分,AI還能“開動大腦”,發(fā)揮自己的“想象力”,對缺失部分進(jìn)行補(bǔ)充。
AI為何能擁有這么高的“想象力”?其根本原因在于其學(xué)習(xí)能力。基于生成對抗網(wǎng)絡(luò)(GAN)的深度學(xué)習(xí)算法,證明了計算機(jī)視覺任務(wù)在圖像恢復(fù)方面具有巨大的潛力。
GAN是基于CNN的一種模型,其特點(diǎn)在于它的訓(xùn)練處于一種對抗博弈的狀態(tài)中。
我們常用“球員與裁判”的比喻來解釋GAN的基本原理。
在足球運(yùn)動中,某些球員經(jīng)常“假摔”來迷惑裁判,使得自己的進(jìn)攻或者防守動作是合規(guī)的,而裁判,負(fù)責(zé)找出這些“假摔”的球員的犯規(guī)動作,做出相應(yīng)懲罰。
在球員與裁判的不斷對抗中,球員“假摔”的水平越來越高,裁判識別“假摔”的水平也越來越高。
終于有一天,球員“假摔”的水平已經(jīng)“爐火純青”,成功的騙過了裁判,裁判已經(jīng)無法識別出該球員是“假摔”還是“真摔”,這說明該球員的水平已經(jīng)實(shí)現(xiàn)了以假亂真。就是通過這樣不斷地嘗試和識別,球員欺騙過了裁判,目的達(dá)到。這就是GAN的基本原理。
GAN的主要結(jié)構(gòu)包括一個生成器(G)和一個判別器(D),上面的例子中,球員=生成器,裁判=判別器。生成器可以是任意可以輸出圖片的模型。同理,判別器與生成器一樣,可以是任意的判別器模型。
以圖片生成為例,G隨機(jī)生成一張圖片x,需要D來判別是不是真實(shí)的圖片,D(x)代表真實(shí)圖片的概率,如果D(x)為1,表示100%為真實(shí),如果D(x)為0,則表示為假圖。在理想狀態(tài)下,D無法判別G生成的圖片是否為真實(shí)的,
D(x)則為0.5,那么,我們的目的就達(dá)到了:得到了生成式模型G,就可以用它來生成圖片。
因此,在訓(xùn)練過程中,G的目標(biāo)就是盡量生成真實(shí)的圖片去欺騙判別網(wǎng)絡(luò)D。
而D的目標(biāo)就是盡量把G生成的圖片和真實(shí)的圖片分別開來。這就是一個“博弈”的過程。這樣,不僅可以上色,還可以將普通電影提升為高清電影。
AI在學(xué)會這個技巧之后,不需要原始照片對照也能準(zhǔn)確地修復(fù)、重建低分辨率圖像。給圖像“上色”之前,AI會對圖像進(jìn)行分析,區(qū)分出標(biāo)志性的物體,如人臉、汽車和天空等,結(jié)合色彩信息進(jìn)行彩色化。
其實(shí),這個過程就相當(dāng)于訓(xùn)練一段程序,讓它對低質(zhì)量的圖像進(jìn)行“想象”,并非完全能實(shí)現(xiàn)100%的圖像恢復(fù)。相較于CNN,GAN采用的是一種無監(jiān)督的學(xué)習(xí)方式訓(xùn)練。
值得一提的是,GAN的作用不僅限于老照片上色,他在各種涉及圖像風(fēng)格轉(zhuǎn)換的任務(wù)中都有用武之地。如自動生成動漫角色并上色、讓馬變成斑馬、生成人臉、作曲等??傊?,GAN在圖像生成、處理修復(fù)領(lǐng)域的應(yīng)用十分廣泛。
五、解釋性、魯棒性,安全性的提升,讓AI更了解世界
AI席卷百業(yè),作為AI時代的主要入口之一,計算機(jī)視覺正成為AI落地規(guī)模最大、應(yīng)用最廣的領(lǐng)域。官方數(shù)據(jù)顯示,2016年,我國計算機(jī)視覺市場規(guī)模僅11.4億元,到2019年,中國計算機(jī)視覺行業(yè)市場規(guī)模增長至219.6億元。
到2025年,全球計算機(jī)視覺市場規(guī)模,將從2016年的11億美元增長到262億美元。
對計算機(jī)視覺技術(shù)的研究在學(xué)術(shù)界與工業(yè)界已經(jīng)掀起了熱潮,在未來,隨著算法的改進(jìn)、硬件的升級、以及5G與物聯(lián)網(wǎng)技術(shù)帶來的高速網(wǎng)絡(luò)與海量數(shù)據(jù),計算機(jī)視覺技術(shù)必然會有更大的想象空間。曾經(jīng),人類用眼睛“記錄”了波瀾壯闊的歷史,未來,AI能夠真正的像人類一樣去“觀察”世界嗎?
遺憾的是,從目前來看,即便我們已經(jīng)創(chuàng)造了許多在單個項(xiàng)目上已經(jīng)超越人類的高級AI,但是這些機(jī)器仍然能力有限,它還無法成為人類的替代品,無法像人類一樣去觀察與思考,有自我意識的AI還不會很快出現(xiàn),AI很難真正像人類一樣去“看”世界萬物。
即便如此,我們也不能否認(rèn)AI的解釋性、魯棒性,安全性等正在不斷提升,AI將在越來越“了解”這個豐富多彩的世界的同時,幫助我們的更高效、智能的完成更多工作,人類與AI將一起創(chuàng)造更多彩、更智慧的世界。
【參考資料】
[1]維科網(wǎng)一文讀懂AI計算機(jī)視覺技術(shù),“視覺五虎將”值得關(guān)注,
https://www.ofweek.com/ai/2018-09/ART-201716-8140-30265610.html
[2]MomozhongAI賦能視覺技術(shù),五大應(yīng)用市場機(jī)遇多,
https://www.esmchina.com/news/6851.html
[3]楊錚圖像標(biāo)簽的算法原理和應(yīng)用,
https://zhuanlan.zhihu.com/p/103674228
[4]機(jī)器之心計算機(jī)視覺,
https://www.jiqizhixin.com/graph/technologies/6e614199-9e49-450e-9078-61fb2b122da9
[5]人工智能知識庫一文看懂計算機(jī)視覺-CV(基本原理+2大挑戰(zhàn)+8大任務(wù)+4個應(yīng)用)https://medium.com/ pkqiang49
[6]許春景計算機(jī)視覺:機(jī)器如何看懂世界?
https://www.huawei.com/cn/publications/winwin-magazine/ai/computer-vision-see-world
[7]微軟亞洲研究院計算機(jī)視覺:讓冰冷的機(jī)器看懂這個多彩的世界,
https://www.msra.cn/zh-cn/news/features/computer-vision-20150210
[8]周小松2020年中國計算機(jī)視覺行業(yè)市場現(xiàn)狀及發(fā)展前景分析人工智能引爆計算機(jī)視覺
https://www.qianzhan.com/analyst/detail/220/201218-c62b8f33.html
[9]元峰深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的前沿進(jìn)展
https://zhuanlan.zhihu.com/p/24699780
[10]人工智能進(jìn)化論十分鐘了解人工智能AI的基礎(chǔ)運(yùn)作原理
https://cloud.tencent.com/developer/news/296050
[11]蘿卜兔神奇的圖像修復(fù)大法,AI想象力的開啟
https://cloud.tencent.com/developer/news/278597
[12]Double_V_GAN原理,優(yōu)缺點(diǎn)、應(yīng)用總結(jié)
https://blog.csdn.net/qq_25737169/article/details/78857724
[13]博客園卷積神經(jīng)網(wǎng)絡(luò)預(yù)備知識
https://www.cnblogs.com/charlotte77/p/7759802.html