亚洲精品一线在线观看,国产成a在线观看视频app

讓機(jī)器像人類(lèi)一樣多模態(tài)交互，會(huì)是物聯(lián)網(wǎng)的勝負(fù)手嗎？

2018-04-18 03:02

新浪

佚名

技術(shù)這個(gè)事情，很多時(shí)候不是一蹴而就的。更多時(shí)候，是大家先看到了一個(gè)東西非常美好，結(jié)果左發(fā)展右發(fā)展也發(fā)展不起來(lái)，在吃瓜群眾們興奮地送上一首《涼涼》之后，搞不好哪天卻突然一個(gè)勝負(fù)手拋出來(lái)，一切又都...

技術(shù)這個(gè)事情，很多時(shí)候不是一蹴而就的。

更多時(shí)候，是大家先看到了一個(gè)東西非常美好，結(jié)果左發(fā)展右發(fā)展也發(fā)展不起來(lái)，在吃瓜群眾們興奮地送上一首《涼涼》之后，搞不好哪天卻突然一個(gè)勝負(fù)手拋出來(lái)，一切又都不一樣了。

曾經(jīng)的移動(dòng)通訊、觸屏交互莫不如是，今天的3D打印、VR說(shuō)不定也在重復(fù)這個(gè)套路。更明顯的可能是物聯(lián)網(wǎng)。這個(gè)我們念叨了好多年，雖然也一直在發(fā)展，但始終沒(méi)有大熱的技術(shù)，到底在等待什么呢？

等待AI？但是音箱刮過(guò)一陣語(yǔ)音交互的風(fēng)潮之后，IoT設(shè)備搭載語(yǔ)音控制模塊也火了起來(lái)?？墒侵钡浇裉欤覀兒孟癜l(fā)現(xiàn)物聯(lián)網(wǎng)還是那個(gè)物聯(lián)網(wǎng)，基本沒(méi)什么變化。

讓我們往更深層開(kāi)個(gè)腦洞，“AI of Things”在等待的，可能不僅是語(yǔ)音交互，而是耳目鼻口耳協(xié)同工作的多模態(tài)AI交互。

你不溫柔，我不主動(dòng)：為什么我們始終遠(yuǎn)離IoT？

首先我們要搞懂一件事：為什么給設(shè)備聯(lián)網(wǎng)的方案推行了這么多年，我們身邊，包括工業(yè)和工程領(lǐng)域，真正用到的物聯(lián)網(wǎng)設(shè)備還是沒(méi)有多少？

答案在于，光給機(jī)器設(shè)備聯(lián)網(wǎng)是沒(méi)用的。你家的桌椅板凳又不想聊微信逛淘寶看快手，它們要網(wǎng)作甚？

人最終需要的是服務(wù)，所以設(shè)備僅僅聯(lián)網(wǎng)是沒(méi)用的，聯(lián)網(wǎng)之后必須能干點(diǎn)什么才行。這就需要兩件事情：1、人與設(shè)備可交互；2、設(shè)備能夠感知到人的需求。

在觸屏、鍵盤(pán)和手機(jī)集成遙控模式，都被證明太麻煩之后，物聯(lián)網(wǎng)開(kāi)始把目光投向了能夠提供自然交互與感知能力的AI。

機(jī)器能夠聽(tīng)懂人類(lèi)說(shuō)話，并且產(chǎn)生對(duì)話并提供服務(wù)，似乎某種意義上從源頭解決了物聯(lián)網(wǎng)設(shè)備缺乏實(shí)際價(jià)值的尷尬。于是我們見(jiàn)到了越來(lái)越多搭載語(yǔ)音交互平臺(tái)，能夠?qū)崿F(xiàn)對(duì)話的物聯(lián)網(wǎng)設(shè)備。從電視、冰箱到家居設(shè)備，再到各種終端不勝枚舉。

但實(shí)踐下來(lái)發(fā)現(xiàn)，這種模式問(wèn)題還是不少：比如語(yǔ)言控制不如屏幕控制那么精準(zhǔn)，很多時(shí)候會(huì)誤判指令和錯(cuò)誤喚醒，比較語(yǔ)言充滿(mǎn)了不確定性；再比如，語(yǔ)音交互的物聯(lián)網(wǎng)設(shè)備還是缺乏主動(dòng)服務(wù)的能力，只是換了操作方式而已，用戶(hù)體驗(yàn)沒(méi)有本質(zhì)提升。

僅僅是“能聽(tīng)”，并且還經(jīng)常聽(tīng)錯(cuò)的物聯(lián)網(wǎng)設(shè)備，就像是兩個(gè)人談戀愛(ài)，其中一方從來(lái)不看你，不會(huì)知冷知熱、噓寒問(wèn)暖，還經(jīng)常搞錯(cuò)對(duì)方的意思，那另一方當(dāng)然表示我懶得理你…

目前來(lái)看，把按鈕換成了語(yǔ)音命令平臺(tái)，隱藏的不確定性太多，而實(shí)際價(jià)值太少，很難成為物聯(lián)網(wǎng)爆發(fā)的真正依托。

這種“你不溫柔我不主動(dòng)”的人機(jī)關(guān)系究竟怎么改變呢？

答案也許是讓機(jī)器能夠聽(tīng)和說(shuō)之外，還要能看，能感覺(jué)，甚至能將五感聯(lián)系到一起進(jìn)行思考。

感知到交互：機(jī)器的五感俱全

所謂“模態(tài)modality”，是德國(guó)生理學(xué)家赫爾姆霍茨提出一種生物學(xué)概念。即生物憑借感知器官與經(jīng)驗(yàn)來(lái)接受信息的通道，比如人類(lèi)有視覺(jué)模態(tài)、聽(tīng)覺(jué)模態(tài)等等。

后來(lái)這個(gè)概念引申到人文科學(xué)領(lǐng)域，成為哲學(xué)和文學(xué)上的一種話語(yǔ)批評(píng)方式；而來(lái)到機(jī)器人和計(jì)算機(jī)科學(xué)領(lǐng)域，就成了機(jī)器與物理世界聯(lián)系的通道。

假如我們把“模態(tài)”通俗地理解為感官，那么智能音箱就是只具備聽(tīng)覺(jué)模態(tài)的物聯(lián)網(wǎng)設(shè)備，而加載AI分析能力的攝像頭可以視為視覺(jué)模態(tài)的物聯(lián)網(wǎng)設(shè)備。把聽(tīng)覺(jué)、視覺(jué)甚至更多模態(tài)組合到一起，多模態(tài)物聯(lián)網(wǎng)也就誕生了。

事實(shí)上，在AI研究當(dāng)中多模態(tài)轉(zhuǎn)換是非常普遍的課題。比如一個(gè)很出名的AI研究方向是讓智能體根據(jù)看到的某張圖片來(lái)生成文字（也有看到文字生成圖片和視頻的），這就是讓AI模型完成在視覺(jué)和語(yǔ)義之間的模態(tài)轉(zhuǎn)換。

運(yùn)用到物聯(lián)網(wǎng)設(shè)備當(dāng)中，今天主要的AI感知模態(tài)有三種：1。語(yǔ)音交互，包括語(yǔ)音指令控制、語(yǔ)義理解、多輪對(duì)話、NLP、語(yǔ)音精準(zhǔn)識(shí)別等領(lǐng)域；2。機(jī)器視覺(jué)，包括自然物體識(shí)別、人臉識(shí)別、肢體動(dòng)作識(shí)別等；3。傳感器智能，包括AI對(duì)熱量、紅外捕捉信號(hào)、空間信號(hào)的閱讀與理解。

把這三種東西融合在一起，物聯(lián)網(wǎng)設(shè)備就可以在單純的能聽(tīng)會(huì)說(shuō)之外，同時(shí)還用攝像頭觀察、用傳感器判斷。而比較前沿的多模態(tài)感知研究當(dāng)中，還包括機(jī)器嗅覺(jué)，機(jī)器觸覺(jué)和情緒理解等內(nèi)容。

我們?cè)诘却南乱淮锫?lián)網(wǎng)設(shè)備，很可能訣竅就是把這些模態(tài)給揉在一起，完成從多模態(tài)感知到多模態(tài)交互的體驗(yàn)。用一句我們十分熟悉的話說(shuō)，就是要讓機(jī)器身上的五感“生態(tài)化反”…

今天讓人樂(lè)觀的多模態(tài)交互型IoT

又能聽(tīng)，又能看，又有傳感器的設(shè)備，聽(tīng)上去似乎有點(diǎn)過(guò)分樂(lè)觀了。但好在綜合了較多采訪與觀察之后，我們發(fā)現(xiàn)今年確實(shí)是值得為多模態(tài)物聯(lián)網(wǎng)設(shè)備樂(lè)觀一下的時(shí)候。

可以看到，很多雙模態(tài)交互，甚至多模態(tài)混合交互的解決方案都在從實(shí)驗(yàn)室里走出來(lái)，甚至已經(jīng)可以在我們生活中看到。這些解決方案更重要價(jià)值是作為案例，可以讓更多企業(yè)、開(kāi)發(fā)者和垂直行業(yè)看到多模態(tài)物聯(lián)網(wǎng)的可復(fù)制價(jià)值。

舉例來(lái)說(shuō)，離我們最近的多模態(tài)AI交互技術(shù)投射在物聯(lián)網(wǎng)設(shè)備上，大概就是用機(jī)器視覺(jué)技術(shù)進(jìn)行嘴唇識(shí)別，來(lái)分離語(yǔ)音交互指令。我們可以看到很多實(shí)驗(yàn)室和科技公司，都在嘗試用機(jī)器視覺(jué)來(lái)讀取說(shuō)話人的唇語(yǔ)和動(dòng)作，從而判斷每個(gè)聲音指令的來(lái)源。

這種技術(shù)已經(jīng)在國(guó)內(nèi)被運(yùn)用到地鐵售票解決方案中，通過(guò)機(jī)器視覺(jué)來(lái)識(shí)別買(mǎi)票人，從而在地鐵站的嘈雜環(huán)境中完成語(yǔ)音售票。

另一個(gè)我們能看到的例子是空調(diào)。在一些新的智能空調(diào)解決方案中，空調(diào)會(huì)在語(yǔ)音交互的基礎(chǔ)上通過(guò)機(jī)器視覺(jué)來(lái)判斷用戶(hù)的位置，提供智能送冷，并且會(huì)結(jié)合傳感器判斷屋內(nèi)溫度和濕度，提供更精準(zhǔn)的環(huán)境方案。

同樣是在家電上，今年電視背后的AI平臺(tái)戰(zhàn)打得風(fēng)生水起，把機(jī)器視覺(jué)技術(shù)引入電視成為了新的趨勢(shì)。通過(guò)機(jī)器視覺(jué)來(lái)讓電視觀察屋內(nèi)照明情況、用戶(hù)與電視的距離，電視可以主動(dòng)調(diào)節(jié)屏幕光線強(qiáng)度，輸出比較護(hù)眼的模式。還有的AI應(yīng)用是讓電視在觀察到兒童看電視后主動(dòng)開(kāi)啟童鎖。

在日常生活之外，多模態(tài)交互設(shè)備也在應(yīng)用于工業(yè)設(shè)備中。比如通過(guò)給機(jī)器設(shè)備搭載機(jī)器視覺(jué)+傳感器提供安全警告，以及利用機(jī)器視覺(jué)+故障信號(hào)的方式判斷設(shè)備問(wèn)題等。

把不同信號(hào)模態(tài)整合在一起，實(shí)現(xiàn)設(shè)備的多維感知，今天正在以比較快的速度來(lái)到應(yīng)用市場(chǎng)。

高精度判斷用戶(hù)命令，輸出主動(dòng)服務(wù)；提供實(shí)時(shí)化、彈性化的體驗(yàn)，可以說(shuō)是AI帶來(lái)的多模態(tài)交互技術(shù)放進(jìn)物聯(lián)網(wǎng)世界中的一張鬼牌。

當(dāng)然了，還是有幾道難關(guān)…

按照慣例，最后我們還是要正視任何技術(shù)都存在不足。剛剛有一點(diǎn)萌芽的多模態(tài)交互+物聯(lián)網(wǎng)當(dāng)然也不例外。

最核心的一個(gè)問(wèn)題，是我們到底靠什么實(shí)現(xiàn)多模態(tài)協(xié)同？

目前來(lái)看，無(wú)論是家電還是工業(yè)設(shè)備，實(shí)現(xiàn)多模態(tài)混合的主要方式還是把不同的傳感源輸入到設(shè)備處理中心，啟動(dòng)一定程序來(lái)開(kāi)啟相應(yīng)服務(wù)。

換句話說(shuō)，AI模型本身是沒(méi)法理解多模態(tài)信號(hào)的，只是不同的算法啟動(dòng)不同的開(kāi)關(guān)而已。這種“偽AI多模態(tài)”的設(shè)備也不是不行，只是在實(shí)時(shí)化和復(fù)雜的推理判斷上會(huì)有心無(wú)力。

解決方案可能是一種叫做“多模態(tài)深度學(xué)習(xí)”的技術(shù)，讓AI智能體本身能夠理解多模態(tài)信號(hào)，從算法本身就容納聽(tīng)覺(jué)、視覺(jué)、傳感信號(hào)進(jìn)行統(tǒng)一思考。這樣可以保證設(shè)備高度實(shí)時(shí)化，并且可以讓設(shè)備進(jìn)行多模態(tài)協(xié)同學(xué)習(xí)，真正地“聰明”起來(lái)。

這要求在算法上對(duì)多維度數(shù)據(jù)的各自表示、融合、對(duì)齊有新的突破，今天我們還只能等待學(xué)術(shù)界的好消息。

另外一個(gè)問(wèn)題，是今天的多模態(tài)交互缺少有效的開(kāi)發(fā)平臺(tái)，開(kāi)發(fā)者和企業(yè)很難復(fù)制這一模式，來(lái)進(jìn)行獨(dú)立的物聯(lián)網(wǎng)解決方案開(kāi)發(fā)。當(dāng)然，目前來(lái)看這應(yīng)該僅僅是個(gè)時(shí)間問(wèn)題。

與之相對(duì)應(yīng)的，是在缺乏行業(yè)標(biāo)準(zhǔn)、開(kāi)發(fā)基礎(chǔ)的前提下，今天開(kāi)發(fā)一個(gè)多模態(tài)物聯(lián)網(wǎng)項(xiàng)目需要大量的人才成本和綜合開(kāi)發(fā)成本。并且缺少芯片、專(zhuān)用傳感器等后端硬件的支撐。這個(gè)領(lǐng)域國(guó)內(nèi)有一些芯片和算法公司，但似乎大部分處在做PPT的畫(huà)餅階段。

綜合來(lái)看，AI帶來(lái)的多模態(tài)想象力，大概確實(shí)可以完成一些物聯(lián)網(wǎng)很早就希望實(shí)現(xiàn)的東西。但方興未艾的產(chǎn)業(yè)局勢(shì)，還需要巨頭搭建平臺(tái)、優(yōu)質(zhì)案例出現(xiàn)、開(kāi)發(fā)者路徑明確等幾個(gè)環(huán)節(jié)才能開(kāi)啟下一輪風(fēng)口。

但無(wú)論如何，耳聰目明的機(jī)器，已經(jīng)在跑步過(guò)來(lái)的路上了……

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

物聯(lián)網(wǎng)卡在車(chē)聯(lián)網(wǎng)中的應(yīng)用有哪些

讓機(jī)器像人類(lèi)一樣多模態(tài)交互，會(huì)是物聯(lián)網(wǎng)的勝負(fù)手嗎？

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

讓機(jī)器像人類(lèi)一樣多模態(tài)交互，會(huì)是物聯(lián)網(wǎng)的勝負(fù)手嗎？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

深度丨國(guó)產(chǎn)車(chē)規(guī)MCU嶄露頭角，本土廠商如何向中高端突破？

數(shù)智芯生，云端共創(chuàng)，IOTE 2022 第十八屆國(guó)際物聯(lián)網(wǎng)展震撼開(kāi)幕!引領(lǐng)AIoT產(chǎn)業(yè)蓬勃景象

物聯(lián)網(wǎng)技術(shù)在我國(guó)農(nóng)業(yè)產(chǎn)業(yè)發(fā)展中的重要意義

徹底的去金融化，才是金融科技的未來(lái)

本月熱門(mén)

AI 原生時(shí)代，字節(jié)想要復(fù)刻第三次增長(zhǎng)奇跡

QuestMobile2024 中國(guó)移動(dòng)互聯(lián)網(wǎng)秋季大報(bào)告：一線、新一線、二線城市月活用戶(hù)重回凈增，數(shù)字增長(zhǎng)“內(nèi)生動(dòng)力”已然改變!

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項(xiàng)網(wǎng)絡(luò)安全最佳實(shí)踐措施

手機(jī)soc廠商自研架構(gòu)成趨勢(shì)

從5G到6G：開(kāi)啟無(wú)線通信的未來(lái)

中國(guó)AI大模型的崛起：從萌芽到廣泛應(yīng)用

精選文章

焦洋：“互聯(lián)網(wǎng)+”移動(dòng)政務(wù)安全

上海博泰等一眾優(yōu)秀企業(yè)上榜《2023上海硬核科技企業(yè)TOP100榜單》

中國(guó)數(shù)據(jù)生產(chǎn)力大賽，共同見(jiàn)證數(shù)據(jù)的價(jià)值!

品茗科技榮獲“2022年度中國(guó)軟件技術(shù)領(lǐng)軍企業(yè)獎(jiǎng)”

李廣乾：數(shù)據(jù)中臺(tái)促進(jìn)“互聯(lián)網(wǎng)+”產(chǎn)業(yè)創(chuàng)新

無(wú)錫軟件產(chǎn)業(yè)發(fā)展有限公司榮獲無(wú)錫市軟件和信息技術(shù)服務(wù)業(yè)“突出貢獻(xiàn)獎(jiǎng)”

熱點(diǎn)資訊

第六屆中國(guó)仿真技術(shù)應(yīng)用大會(huì)暨天津（寧河）低空產(chǎn)業(yè)發(fā)展峰會(huì)成功舉辦

QuestMobile2024 中國(guó)移動(dòng)互聯(lián)網(wǎng)秋季大報(bào)告：一線、新一線、二線城市月活用戶(hù)重回凈增，數(shù)字增長(zhǎng)“內(nèi)生動(dòng)力”已然改變!

繼“512軸”的新突破：華龍訊達(dá)在2024中國(guó)自動(dòng)化大會(huì)上分享具身智能生產(chǎn)線實(shí)踐

DevSecOps建設(shè)標(biāo)桿丨民生證券攜手懸鏡安全，共建敏捷安全開(kāi)發(fā)體系

ESIS 2024第三屆中國(guó)電子半導(dǎo)體數(shù)智峰會(huì)正式啟動(dòng)，邀您共創(chuàng)電子半導(dǎo)體行業(yè)美好未來(lái)!

物聯(lián)網(wǎng)卡在車(chē)聯(lián)網(wǎng)中的應(yīng)用有哪些

不用等到2020年!AR+VR就能帶你上火星

讓機(jī)器像人類(lèi)一樣多模態(tài)交互，會(huì)是物聯(lián)網(wǎng)的勝負(fù)手嗎？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

欄目推薦

深度丨國(guó)產(chǎn)車(chē)規(guī)MCU嶄露頭角，本土廠商如何向中高端突破？

數(shù)智芯生，云端共創(chuàng)，IOTE 2022 第十八屆國(guó)際物聯(lián)網(wǎng)展震撼開(kāi)幕!引領(lǐng)AIoT產(chǎn)業(yè)蓬勃景象

物聯(lián)網(wǎng)技術(shù)在我國(guó)農(nóng)業(yè)產(chǎn)業(yè)發(fā)展中的重要意義

徹底的去金融化，才是金融科技的未來(lái)

本月熱門(mén)

精選文章

熱點(diǎn)資訊

物聯(lián)網(wǎng)卡在車(chē)聯(lián)網(wǎng)中的應(yīng)用有哪些

不用等到2020年!AR+VR就能帶你上火星

深度丨國(guó)產(chǎn)車(chē)規(guī)MCU嶄露頭角，本土廠商如何向中高端突破？

數(shù)智芯生，云端共創(chuàng)，IOTE 2022 第十八屆國(guó)際物聯(lián)網(wǎng)展震撼開(kāi)幕!引領(lǐng)AIoT產(chǎn)業(yè)蓬勃景象

徹底的去金融化，才是金融科技的未來(lái)