AI 時(shí)代,語音會(huì)成為主流交互方式嗎

語音交互技術(shù)其實(shí)已經(jīng)有了數(shù)十年的發(fā)展歷史,從簡(jiǎn)單的單詞識(shí)別到現(xiàn)在的復(fù)雜語境識(shí)別,甚至做出推測(cè),從技術(shù)角度來看,語音已經(jīng)做好了登上前臺(tái)的準(zhǔn)備。

本文來自微信公眾號(hào)“不客觀實(shí)驗(yàn)室”,【作者】唐健博。

語音交互正在成為我們生活中的一部分。

十年前,如果讓你開口和手機(jī)對(duì)話。你會(huì)覺得非常違和。

十年后,我們現(xiàn)在每天都會(huì)對(duì)著手機(jī)講話,而且是和它交流的那種。

其實(shí)五年前我接觸過一個(gè)新產(chǎn)品,全智能電飯煲,產(chǎn)品方稱用戶可以與電飯煲對(duì)話,告訴它什么時(shí)候煮好飯。我當(dāng)時(shí)腦子里出現(xiàn)過一萬個(gè)疑問,“它煮飯,誰放米?”“我為什么要和一個(gè)電飯煲說話?”“我瘋了吧我”......

微信圖片_20241008094136.png

使用豆包AI生成,提示詞:人類、語音、電飯煲、人工智能、對(duì)話

換到今天,雖然交互會(huì)有一些差異,但我已經(jīng)習(xí)慣了在家叫智能音箱開電視、設(shè)置掃地機(jī)器人工作時(shí)間。你不得不承認(rèn),當(dāng)年4G的滾滾洪流來臨時(shí),主打發(fā)送語音的微信抓住了移動(dòng)互聯(lián)網(wǎng)的紅利,但飛信卻在那之后沒落,是有原因的。

小拇指的手繭見證了一次人與手機(jī)交互方式的轉(zhuǎn)變,語音則是在努力搶奪人機(jī)交互方式的話語權(quán)。

從鍵盤到觸屏,再跳出屏幕

在iPhone風(fēng)靡全球之前,市場(chǎng)上并不缺乏觸屏手機(jī)。

Nokia、Motorola、BlackBerry等等企業(yè)將實(shí)體按鍵的手機(jī)做得登峰造極,也鑄就了手機(jī)歷史上最璀璨的一個(gè)篇章。

微信圖片_20241008094143.png

精密的實(shí)體按鍵是手機(jī)的標(biāo)配。實(shí)體按鍵無疑有著非常明顯的優(yōu)勢(shì):精確、可盲打、可替換。這些優(yōu)勢(shì)如今依然在其它設(shè)備上有所體現(xiàn)。即使現(xiàn)在的品牌試圖將手機(jī)打造成純粹的unibody的產(chǎn)品,也跳不出實(shí)體按鍵的束縛。

只是蘋果將觸屏的優(yōu)點(diǎn)無限放大,為它匹配了自然的操作邏輯——左滑右滑上滑下滑,當(dāng)然你也可以點(diǎn)擊,甚至向屏幕下重重地按下去。蘋果為這塊觸摸屏賦予了符合直覺的、豐富的操作方式。

盡管大家都覺得iPhone是觸屏手機(jī)的開創(chuàng)者,但它花了近3年時(shí)間優(yōu)化系統(tǒng),讓這個(gè)彼時(shí)的異類更加好用。

某種程度上來說,人類是懶惰的,科技的發(fā)展也促使人類更加懶惰。因此用戶自然會(huì)選擇省力的、不費(fèi)腦子的那條路——就跟如今短視頻如此風(fēng)靡一樣。

站在交互邏輯的角度,觸屏跳脫出了硬件固定的位置,讓手指可以隨心所欲地在屏幕上進(jìn)行操作。就像PC時(shí)代,鼠標(biāo)剛出現(xiàn)時(shí),用戶能夠完成“所見即所得”的操作一樣。而軟件所需要做的,就是為這塊屏幕匹配一個(gè)合理的操作UI。

微信圖片_20241008094146.png

屏幕越來越大,則是另一個(gè)趨勢(shì)。人們總是會(huì)追求更大的屏幕,甚至更多的屏幕。凱文凱利在他的著作《必然》當(dāng)中提到過“屏讀”,即任意表面都可以是屏幕,屏幕會(huì)越來越多?,F(xiàn)在來看,預(yù)言正在成真。

充斥于我們生活里的科技產(chǎn)品,屏幕越來越多,就連智能汽車也在比拼誰的屏幕大、誰的屏幕多。于是到這里新的問題出現(xiàn)了,當(dāng)屏幕越來越多、越來越大的時(shí)候,我們應(yīng)該如何與它們進(jìn)行交互?

烽煙傳訊,聲音遠(yuǎn)控

人與屏幕的交互范圍受人體影響,即你的手掌有多大,就能覆蓋多大面積的手機(jī)屏幕——喬布斯曾說手機(jī)的黃金尺寸是3.5英寸不是沒有道理,那是正常人手掌尺寸能覆蓋整個(gè)屏幕的大小。

在真實(shí)場(chǎng)景中,手臂與屏幕的距離也決定你是否能直接進(jìn)行操作。雖然你與電視能夠用遙控器進(jìn)行操作,但智能音箱不可能都配上一個(gè)遙控器。

遠(yuǎn)距離通信,古代有烽煙傳訊,今天有智能語音,尤其是AI時(shí)代。

語音交互的優(yōu)點(diǎn)顯而易見。你在家可以聲控智能家居,上車可以聲控智能汽車,躺在床上,你也可以向手機(jī)發(fā)出一堆語音指令。這符合科技發(fā)展規(guī)律,畢竟人就是這樣變懶的。

微信圖片_20241008094147.png

其次,語音對(duì)話是最基本的交流方式。文字出現(xiàn)之前,人類就有了豐富的語言系統(tǒng)。在即時(shí)通訊軟件高度發(fā)展的今天,你甚至可以不懂打字就能和千里之外的親戚朋友聊天。

過去我們之所以會(huì)覺得與手機(jī)“對(duì)話”奇怪,是由于沒有對(duì)象感。但是今天,即時(shí)通訊軟件讓我們習(xí)慣了對(duì)著手機(jī)發(fā)出對(duì)話信息,如ChatGPT一樣的AI語音助手又發(fā)展出了聊天技能,人與手機(jī)進(jìn)行對(duì)話已經(jīng)成為了現(xiàn)實(shí)。

從技術(shù)的角度來說,加入AI的自然語義識(shí)別正逐漸變得更加擬人化,AI語音助手能夠接收、結(jié)合背景、分析你所說的全部話語,并給出相應(yīng)的答案。隨著技術(shù)的進(jìn)步,端側(cè)運(yùn)算能力增強(qiáng),從語音指令發(fā)出再到設(shè)備給出答案,時(shí)間間隔將會(huì)越來越小,無限接近人與人的自然對(duì)話。

這樣才不會(huì)出現(xiàn)你在發(fā)布會(huì)上,對(duì)著電腦喊計(jì)算表格,半天出不來結(jié)果的情況。

語音,最低成本的交互方式

語音交互技術(shù)其實(shí)已經(jīng)有了數(shù)十年的發(fā)展歷史,從簡(jiǎn)單的單詞識(shí)別到現(xiàn)在的復(fù)雜語境識(shí)別,甚至做出推測(cè),從技術(shù)角度來看,語音已經(jīng)做好了登上前臺(tái)的準(zhǔn)備。

而對(duì)于用戶來說,語音是最低成本的交互方式。它符合直覺,即時(shí)響應(yīng),沒有學(xué)習(xí)門檻。在人機(jī)交互領(lǐng)域,它也能實(shí)現(xiàn)跨設(shè)備、跨系統(tǒng)、跨距離的交互,幾乎無處不在。

在AI時(shí)代真正來臨前,德勤就已經(jīng)發(fā)布過《德勤交互式人工智能白皮書:交互式人工智能正在重塑人機(jī)交互》,報(bào)告中稱“隨著技術(shù)的進(jìn)一步發(fā)展,預(yù)計(jì)語音交互將在更多領(lǐng)域展現(xiàn)其價(jià)值,成為人機(jī)交互的重要方式”。

邁過了對(duì)話違和感、技術(shù)門檻以及普及率三大關(guān)之后,語音交互無疑具有極大的潛力,去改變我們與設(shè)備、機(jī)器交互的方式,尤其是手機(jī)。蘋果從Siri到Apple Intelligence描繪出了一張碩大的AI Phone藍(lán)圖,而另一邊國(guó)產(chǎn)廠商也在奮起追趕,HarmonyOS NEXT、ColorOS 15、OriginOS 5等等系統(tǒng),都將推出屬于更好用的AI語音助手和聊天機(jī)器人。

從鍵盤到觸屏,再到跨空間的高效語音交互,人機(jī)交互的時(shí)代即將翻篇。

而我在這一頁的最后,依舊用文字詢問了ChatGPT和豆包,它們認(rèn)為語音是否能成為AI時(shí)代的主流交互方式,它們都給出了肯定的答案。

微信圖片_20241008094152.png

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論