技術(shù)這個(gè)事情,很多時(shí)候不是一蹴而就的。
更多時(shí)候,是大家先看到了一個(gè)東西非常美好,結(jié)果左發(fā)展右發(fā)展也發(fā)展不起來(lái),在吃瓜群眾們興奮地送上一首《涼涼》之后,搞不好哪天卻突然一個(gè)勝負(fù)手拋出來(lái),一切又都不一樣了。
曾經(jīng)的移動(dòng)通訊、觸屏交互莫不如是,今天的3D打印、VR說(shuō)不定也在重復(fù)這個(gè)套路。更明顯的可能是物聯(lián)網(wǎng)。這個(gè)我們念叨了好多年,雖然也一直在發(fā)展,但始終沒(méi)有大熱的技術(shù),到底在等待什么呢?
等待AI?但是音箱刮過(guò)一陣語(yǔ)音交互的風(fēng)潮之后,IoT設(shè)備搭載語(yǔ)音控制模塊也火了起來(lái)??墒侵钡浇裉欤覀兒孟癜l(fā)現(xiàn)物聯(lián)網(wǎng)還是那個(gè)物聯(lián)網(wǎng),基本沒(méi)什么變化。
讓我們往更深層開(kāi)個(gè)腦洞,“AI of Things”在等待的,可能不僅是語(yǔ)音交互,而是耳目鼻口耳協(xié)同工作的多模態(tài)AI交互。
你不溫柔,我不主動(dòng):為什么我們始終遠(yuǎn)離IoT?
首先我們要搞懂一件事:為什么給設(shè)備聯(lián)網(wǎng)的方案推行了這么多年,我們身邊,包括工業(yè)和工程領(lǐng)域,真正用到的物聯(lián)網(wǎng)設(shè)備還是沒(méi)有多少?
答案在于,光給機(jī)器設(shè)備聯(lián)網(wǎng)是沒(méi)用的。你家的桌椅板凳又不想聊微信逛淘寶看快手,它們要網(wǎng)作甚?
人最終需要的是服務(wù),所以設(shè)備僅僅聯(lián)網(wǎng)是沒(méi)用的,聯(lián)網(wǎng)之后必須能干點(diǎn)什么才行。這就需要兩件事情:1、人與設(shè)備可交互;2、設(shè)備能夠感知到人的需求。
在觸屏、鍵盤(pán)和手機(jī)集成遙控模式,都被證明太麻煩之后,物聯(lián)網(wǎng)開(kāi)始把目光投向了能夠提供自然交互與感知能力的AI。
機(jī)器能夠聽(tīng)懂人類(lèi)說(shuō)話,并且產(chǎn)生對(duì)話并提供服務(wù),似乎某種意義上從源頭解決了物聯(lián)網(wǎng)設(shè)備缺乏實(shí)際價(jià)值的尷尬。于是我們見(jiàn)到了越來(lái)越多搭載語(yǔ)音交互平臺(tái),能夠?qū)崿F(xiàn)對(duì)話的物聯(lián)網(wǎng)設(shè)備。從電視、冰箱到家居設(shè)備,再到各種終端不勝枚舉。
但實(shí)踐下來(lái)發(fā)現(xiàn),這種模式問(wèn)題還是不少:比如語(yǔ)言控制不如屏幕控制那么精準(zhǔn),很多時(shí)候會(huì)誤判指令和錯(cuò)誤喚醒,比較語(yǔ)言充滿(mǎn)了不確定性;再比如,語(yǔ)音交互的物聯(lián)網(wǎng)設(shè)備還是缺乏主動(dòng)服務(wù)的能力,只是換了操作方式而已,用戶(hù)體驗(yàn)沒(méi)有本質(zhì)提升。
僅僅是“能聽(tīng)”,并且還經(jīng)常聽(tīng)錯(cuò)的物聯(lián)網(wǎng)設(shè)備,就像是兩個(gè)人談戀愛(ài),其中一方從來(lái)不看你,不會(huì)知冷知熱、噓寒問(wèn)暖,還經(jīng)常搞錯(cuò)對(duì)方的意思,那另一方當(dāng)然表示我懶得理你…
目前來(lái)看,把按鈕換成了語(yǔ)音命令平臺(tái),隱藏的不確定性太多,而實(shí)際價(jià)值太少,很難成為物聯(lián)網(wǎng)爆發(fā)的真正依托。
這種“你不溫柔我不主動(dòng)”的人機(jī)關(guān)系究竟怎么改變呢?
答案也許是讓機(jī)器能夠聽(tīng)和說(shuō)之外,還要能看,能感覺(jué),甚至能將五感聯(lián)系到一起進(jìn)行思考。
感知到交互:機(jī)器的五感俱全
所謂“模態(tài)modality”,是德國(guó)生理學(xué)家赫爾姆霍茨提出一種生物學(xué)概念。即生物憑借感知器官與經(jīng)驗(yàn)來(lái)接受信息的通道,比如人類(lèi)有視覺(jué)模態(tài)、聽(tīng)覺(jué)模態(tài)等等。
后來(lái)這個(gè)概念引申到人文科學(xué)領(lǐng)域,成為哲學(xué)和文學(xué)上的一種話語(yǔ)批評(píng)方式;而來(lái)到機(jī)器人和計(jì)算機(jī)科學(xué)領(lǐng)域,就成了機(jī)器與物理世界聯(lián)系的通道。
假如我們把“模態(tài)”通俗地理解為感官,那么智能音箱就是只具備聽(tīng)覺(jué)模態(tài)的物聯(lián)網(wǎng)設(shè)備,而加載AI分析能力的攝像頭可以視為視覺(jué)模態(tài)的物聯(lián)網(wǎng)設(shè)備。把聽(tīng)覺(jué)、視覺(jué)甚至更多模態(tài)組合到一起,多模態(tài)物聯(lián)網(wǎng)也就誕生了。
事實(shí)上,在AI研究當(dāng)中多模態(tài)轉(zhuǎn)換是非常普遍的課題。比如一個(gè)很出名的AI研究方向是讓智能體根據(jù)看到的某張圖片來(lái)生成文字(也有看到文字生成圖片和視頻的),這就是讓AI模型完成在視覺(jué)和語(yǔ)義之間的模態(tài)轉(zhuǎn)換。
運(yùn)用到物聯(lián)網(wǎng)設(shè)備當(dāng)中,今天主要的AI感知模態(tài)有三種:1。 語(yǔ)音交互,包括語(yǔ)音指令控制、語(yǔ)義理解、多輪對(duì)話、NLP、語(yǔ)音精準(zhǔn)識(shí)別等領(lǐng)域;2。 機(jī)器視覺(jué),包括自然物體識(shí)別、人臉識(shí)別、肢體動(dòng)作識(shí)別等;3。 傳感器智能,包括AI對(duì)熱量、紅外捕捉信號(hào)、空間信號(hào)的閱讀與理解。
把這三種東西融合在一起,物聯(lián)網(wǎng)設(shè)備就可以在單純的能聽(tīng)會(huì)說(shuō)之外,同時(shí)還用攝像頭觀察、用傳感器判斷。而比較前沿的多模態(tài)感知研究當(dāng)中,還包括機(jī)器嗅覺(jué),機(jī)器觸覺(jué)和情緒理解等內(nèi)容。
我們?cè)诘却南乱淮锫?lián)網(wǎng)設(shè)備,很可能訣竅就是把這些模態(tài)給揉在一起,完成從多模態(tài)感知到多模態(tài)交互的體驗(yàn)。用一句我們十分熟悉的話說(shuō),就是要讓機(jī)器身上的五感“生態(tài)化反”…
今天讓人樂(lè)觀的多模態(tài)交互型IoT
又能聽(tīng),又能看,又有傳感器的設(shè)備,聽(tīng)上去似乎有點(diǎn)過(guò)分樂(lè)觀了。但好在綜合了較多采訪與觀察之后,我們發(fā)現(xiàn)今年確實(shí)是值得為多模態(tài)物聯(lián)網(wǎng)設(shè)備樂(lè)觀一下的時(shí)候。
可以看到,很多雙模態(tài)交互,甚至多模態(tài)混合交互的解決方案都在從實(shí)驗(yàn)室里走出來(lái),甚至已經(jīng)可以在我們生活中看到。這些解決方案更重要價(jià)值是作為案例,可以讓更多企業(yè)、開(kāi)發(fā)者和垂直行業(yè)看到多模態(tài)物聯(lián)網(wǎng)的可復(fù)制價(jià)值。
舉例來(lái)說(shuō),離我們最近的多模態(tài)AI交互技術(shù)投射在物聯(lián)網(wǎng)設(shè)備上,大概就是用機(jī)器視覺(jué)技術(shù)進(jìn)行嘴唇識(shí)別,來(lái)分離語(yǔ)音交互指令。我們可以看到很多實(shí)驗(yàn)室和科技公司,都在嘗試用機(jī)器視覺(jué)來(lái)讀取說(shuō)話人的唇語(yǔ)和動(dòng)作,從而判斷每個(gè)聲音指令的來(lái)源。
這種技術(shù)已經(jīng)在國(guó)內(nèi)被運(yùn)用到地鐵售票解決方案中,通過(guò)機(jī)器視覺(jué)來(lái)識(shí)別買(mǎi)票人,從而在地鐵站的嘈雜環(huán)境中完成語(yǔ)音售票。
另一個(gè)我們能看到的例子是空調(diào)。在一些新的智能空調(diào)解決方案中,空調(diào)會(huì)在語(yǔ)音交互的基礎(chǔ)上通過(guò)機(jī)器視覺(jué)來(lái)判斷用戶(hù)的位置,提供智能送冷,并且會(huì)結(jié)合傳感器判斷屋內(nèi)溫度和濕度,提供更精準(zhǔn)的環(huán)境方案。
同樣是在家電上,今年電視背后的AI平臺(tái)戰(zhàn)打得風(fēng)生水起,把機(jī)器視覺(jué)技術(shù)引入電視成為了新的趨勢(shì)。通過(guò)機(jī)器視覺(jué)來(lái)讓電視觀察屋內(nèi)照明情況、用戶(hù)與電視的距離,電視可以主動(dòng)調(diào)節(jié)屏幕光線強(qiáng)度,輸出比較護(hù)眼的模式。還有的AI應(yīng)用是讓電視在觀察到兒童看電視后主動(dòng)開(kāi)啟童鎖。
在日常生活之外,多模態(tài)交互設(shè)備也在應(yīng)用于工業(yè)設(shè)備中。比如通過(guò)給機(jī)器設(shè)備搭載機(jī)器視覺(jué)+傳感器提供安全警告,以及利用機(jī)器視覺(jué)+故障信號(hào)的方式判斷設(shè)備問(wèn)題等。
把不同信號(hào)模態(tài)整合在一起,實(shí)現(xiàn)設(shè)備的多維感知,今天正在以比較快的速度來(lái)到應(yīng)用市場(chǎng)。
高精度判斷用戶(hù)命令,輸出主動(dòng)服務(wù);提供實(shí)時(shí)化、彈性化的體驗(yàn),可以說(shuō)是AI帶來(lái)的多模態(tài)交互技術(shù)放進(jìn)物聯(lián)網(wǎng)世界中的一張鬼牌。
當(dāng)然了,還是有幾道難關(guān)…
按照慣例,最后我們還是要正視任何技術(shù)都存在不足。剛剛有一點(diǎn)萌芽的多模態(tài)交互+物聯(lián)網(wǎng)當(dāng)然也不例外。
最核心的一個(gè)問(wèn)題,是我們到底靠什么實(shí)現(xiàn)多模態(tài)協(xié)同?
目前來(lái)看,無(wú)論是家電還是工業(yè)設(shè)備,實(shí)現(xiàn)多模態(tài)混合的主要方式還是把不同的傳感源輸入到設(shè)備處理中心,啟動(dòng)一定程序來(lái)開(kāi)啟相應(yīng)服務(wù)。
換句話說(shuō),AI模型本身是沒(méi)法理解多模態(tài)信號(hào)的,只是不同的算法啟動(dòng)不同的開(kāi)關(guān)而已。這種“偽AI多模態(tài)”的設(shè)備也不是不行,只是在實(shí)時(shí)化和復(fù)雜的推理判斷上會(huì)有心無(wú)力。
解決方案可能是一種叫做“多模態(tài)深度學(xué)習(xí)”的技術(shù),讓AI智能體本身能夠理解多模態(tài)信號(hào),從算法本身就容納聽(tīng)覺(jué)、視覺(jué)、傳感信號(hào)進(jìn)行統(tǒng)一思考。這樣可以保證設(shè)備高度實(shí)時(shí)化,并且可以讓設(shè)備進(jìn)行多模態(tài)協(xié)同學(xué)習(xí),真正地“聰明”起來(lái)。
這要求在算法上對(duì)多維度數(shù)據(jù)的各自表示、融合、對(duì)齊有新的突破,今天我們還只能等待學(xué)術(shù)界的好消息。
另外一個(gè)問(wèn)題,是今天的多模態(tài)交互缺少有效的開(kāi)發(fā)平臺(tái),開(kāi)發(fā)者和企業(yè)很難復(fù)制這一模式,來(lái)進(jìn)行獨(dú)立的物聯(lián)網(wǎng)解決方案開(kāi)發(fā)。當(dāng)然,目前來(lái)看這應(yīng)該僅僅是個(gè)時(shí)間問(wèn)題。
與之相對(duì)應(yīng)的,是在缺乏行業(yè)標(biāo)準(zhǔn)、開(kāi)發(fā)基礎(chǔ)的前提下,今天開(kāi)發(fā)一個(gè)多模態(tài)物聯(lián)網(wǎng)項(xiàng)目需要大量的人才成本和綜合開(kāi)發(fā)成本。并且缺少芯片、專(zhuān)用傳感器等后端硬件的支撐。這個(gè)領(lǐng)域國(guó)內(nèi)有一些芯片和算法公司,但似乎大部分處在做PPT的畫(huà)餅階段。
綜合來(lái)看,AI帶來(lái)的多模態(tài)想象力,大概確實(shí)可以完成一些物聯(lián)網(wǎng)很早就希望實(shí)現(xiàn)的東西。但方興未艾的產(chǎn)業(yè)局勢(shì),還需要巨頭搭建平臺(tái)、優(yōu)質(zhì)案例出現(xiàn)、開(kāi)發(fā)者路徑明確等幾個(gè)環(huán)節(jié)才能開(kāi)啟下一輪風(fēng)口。
但無(wú)論如何,耳聰目明的機(jī)器,已經(jīng)在跑步過(guò)來(lái)的路上了……