馬斯克在推特上不止一次的表示:“人工智能”AI將取代人類進(jìn)行工作。很多對(duì)此感到十分惶恐,害怕自己的工作將被“人工智能”取代,掉了飯碗,其實(shí)隨著科技的發(fā)展,“機(jī)器人”會(huì)越來(lái)越智能化,確實(shí)會(huì)取代一些一些繁瑣、沉重的工作,但是有些工作是“機(jī)器人”們望塵莫及的,那就是具有“視覺(jué)敘事”的漫畫(huà),你說(shuō)連個(gè)漫畫(huà)都看不懂的人,談何說(shuō)取代人類那?因此漫畫(huà)家才是未來(lái)的鐵飯碗。
AI工程師的很大一部分工作就是替AI“帶路”,然后告訴人類,你們的這項(xiàng)和那項(xiàng)工作都要被AI替代了。
一直以來(lái),人類似乎都站在一個(gè)毫無(wú)還手之力的弱勢(shì)地位,或許未來(lái)真的像一些悲觀者想象中那樣,我們有AI司機(jī)、AI售貨員、AI詩(shī)人,但人類自己卻成了可憐的乞討者。
直到今天,他們第一次發(fā)現(xiàn)有一項(xiàng)工作AI在一段時(shí)間以內(nèi)都無(wú)法超越人類,而這次勝利屬于二次元——不會(huì)被AI代替的工作,是漫畫(huà)家。
連漫畫(huà)都看不懂,談什么毀滅世界?
漫畫(huà)家不會(huì)AI代替的原因很簡(jiǎn)單,因?yàn)轳R里蘭大學(xué)的一位教授進(jìn)行了一項(xiàng)研究,最終發(fā)現(xiàn)AI根本看不懂漫畫(huà)。
以上是一則非常簡(jiǎn)單的四格漫畫(huà),對(duì)于人類來(lái)說(shuō)理解起來(lái)非常容易:小貓?jiān)谒伎紕?chuàng)作素材,然后發(fā)現(xiàn)了小狗,要求小狗講個(gè)笑話,小狗說(shuō)“你很漂亮”導(dǎo)致小貓非常憤怒。
實(shí)際上,在最后一個(gè)畫(huà)面中,小狗沒(méi)有入鏡,而“你很漂亮”本來(lái)是表?yè)P(yáng),要和上一個(gè)畫(huà)面中的“笑話”連接起來(lái),才能解釋出小貓的情緒。
對(duì)于AI來(lái)說(shuō),理解這些呈現(xiàn)在畫(huà)面之外的信息,簡(jiǎn)直太困難了。
在馬里蘭大學(xué)的實(shí)驗(yàn)中,研究者搭建了一個(gè)由120萬(wàn)張漫畫(huà)畫(huà)格組成的數(shù)據(jù)集,并提取出了每個(gè)畫(huà)格中的文本,利用LSTM模型,希望AI能對(duì)漫畫(huà)進(jìn)行一個(gè)連貫的了解。
關(guān)于LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))此前已經(jīng)介紹過(guò)很多,這一模型的特點(diǎn)就是加入了記憶的概念,可以處理和預(yù)測(cè)時(shí)間序列較長(zhǎng)元素。雖然在長(zhǎng)文本、機(jī)器翻譯等等方面表現(xiàn)的都不錯(cuò),但在看漫畫(huà)這件事上,LSTM徹底挫敗了。
在經(jīng)過(guò)大量訓(xùn)練后,研究人員給了AI一組以前沒(méi)見(jiàn)過(guò)的漫畫(huà),要求AI理解并預(yù)測(cè)下一個(gè)畫(huà)面中的文字信息或畫(huà)面內(nèi)容,結(jié)果AI的成績(jī)一塌糊涂。而人類的預(yù)測(cè)正確程度,通常能達(dá)到80%的正確率。
視覺(jué)敘事?何必強(qiáng)人工智能所難
嚴(yán)格來(lái)說(shuō),漫畫(huà)這種東西屬于“視覺(jué)敘事”——把信息隱藏于圖像之中。同樣是視覺(jué)敘事,AI理解電影就比理解漫畫(huà)容易的多,電影的主角是人,而人臉長(zhǎng)的都是一個(gè)樣子,想要訓(xùn)練AI讀出人臉表情、識(shí)別情緒是件很簡(jiǎn)單的事,更何況電影還會(huì)有詳細(xì)的劇本。
但漫畫(huà)最大的特點(diǎn),就是視覺(jué)上不具有連貫性。就像上文的四格漫畫(huà)一樣,第三張圖小狗還在畫(huà)面中,第四張圖就不在了。人類可以很快的理解到,名為淡定狗的小狗扔下一句話就淡定的離開(kāi)??蓪?duì)于AI來(lái)說(shuō),讀出這種在畫(huà)面和文字之外的信息實(shí)在是強(qiáng)人工智能所難。
其次,不同漫畫(huà)的繪畫(huà)、敘事風(fēng)格迥異,對(duì)于AI的訓(xùn)練來(lái)說(shuō)也是個(gè)難點(diǎn)。簡(jiǎn)單的四格漫畫(huà)中,每一格的場(chǎng)景都是相同的,可在其他漫畫(huà)中,可能這一格是打斗的場(chǎng)景,下一格就是一張憤怒的人臉。能看懂四格漫畫(huà)AI,再去看那種有鏡頭切換感的漫畫(huà),也是一頭霧水。至于畫(huà)風(fēng)方面,不同漫畫(huà)家對(duì)于人臉描繪方式都有很大差異,換成AI來(lái)理解,難度又會(huì)加大了。
還有一點(diǎn),視覺(jué)敘事這件事是建立在“邏輯”和“常識(shí)”兩個(gè)概念基礎(chǔ)之上的。比如小貓說(shuō)講個(gè)笑話,小狗說(shuō)“你好漂亮”,理解這個(gè)情節(jié)就需要“你說(shuō)我漂亮是笑話=你說(shuō)我丑”這一基礎(chǔ)的邏輯。又比如哆啦A夢(mèng)中常見(jiàn)的老鼠梗也需要“貓通常不怕老鼠”這一基礎(chǔ)常識(shí)。這些東西對(duì)于人類來(lái)說(shuō)都很簡(jiǎn)單,可是AI是不具備這些常識(shí)和邏輯概念的,我們也不能像編百科全書(shū)那樣,把這些概念灌輸?shù)紸I的大腦之中。
圍棋界的大手,到了甄嬛傳里也是一集死
其實(shí)結(jié)合AI在圍棋領(lǐng)域的勝利和在漫畫(huà)上的失敗,我們可以看出,AI在完全信息信息領(lǐng)域中的表現(xiàn)和不完全信息領(lǐng)域中的表現(xiàn)完全不同。
完全信息本來(lái)是經(jīng)濟(jì)學(xué)中的一個(gè)屬于,意思是參與者可以理解整個(gè)市場(chǎng)的所有信息。在這里,我們可以看做一項(xiàng)工作的數(shù)據(jù)集。在圍棋這項(xiàng)工作中,所有的信息都可以歸納為數(shù)據(jù)集:游戲的規(guī)則、每一步的打法。可在漫畫(huà)中,我們最多能把畫(huà)面中做上詳細(xì)的標(biāo)注,把文本信息都提取出來(lái)??呻[藏在圖片文字之外的邏輯關(guān)系、常識(shí)等等只可意會(huì)不可言傳的東西,是無(wú)法向AI提供的。
而AI做的最差的,就是read between the lines。
以此類推,AI在戲劇、歇后語(yǔ)、四國(guó)軍棋的暗棋(一種包含了欺騙的軍旗玩法)包括談戀愛(ài)等等一切充滿了不完全信息、欺騙與反欺騙、解讀意象、常識(shí)和邏輯的游戲中表現(xiàn)都不會(huì)太好。
這么看來(lái),AI有點(diǎn)像《三體》里初期的智子,不會(huì)隱藏自己的想法,也不能明白隱瞞、欺騙這種概念。所以,我們真的不必對(duì)AI的勝利感到恐懼,它會(huì)是辦公室里人緣最差的那位同事和后宮里一集死的路人,某一項(xiàng)能力的突出并不能彌補(bǔ)它在不完全信息方面的短板。更何況意象、類比、反諷、隱喻這種東西,是人類最擅長(zhǎng)的手段。
我相信,未來(lái)世界最好的樣子一定是人類和AI各司其職,做各自最擅長(zhǎng)的事情。在視覺(jué)敘事這類AI特別不擅長(zhǎng)的事情上,它們依然能給人類提供很多幫助。
比如用生成對(duì)抗神經(jīng)網(wǎng)絡(luò)創(chuàng)造人物形象、用監(jiān)督學(xué)習(xí)+卷積網(wǎng)絡(luò)來(lái)為線稿上色、甚至開(kāi)發(fā)一款會(huì)自動(dòng)放大文字的漫畫(huà)閱讀App。這些并不是幻想,而是正在發(fā)生的現(xiàn)實(shí)。當(dāng)這些繁復(fù)的機(jī)械勞動(dòng)被AI代勞后,我們也就能更多的投入到自己擅長(zhǎng)的事情中來(lái):利用不完全信息環(huán)境講好更多故事,讓這個(gè)世界保持應(yīng)有的趣味。
(原標(biāo)題:人類的最后陣地!AI看不懂漫畫(huà)造就漫畫(huà)家鐵飯碗)