本文來(lái)自微信公眾號(hào)“電子發(fā)燒友網(wǎng)”,文/梁浩斌。
ChatGPT的熱度仍在持續(xù),盡管從表面上看,它只是一種更加智能的聊天機(jī)器人,但畢竟這只是AI表現(xiàn)形式的一種,背后的技術(shù)最終能夠擴(kuò)展到哪些領(lǐng)域,能給各個(gè)行業(yè)帶來(lái)哪些變化,是業(yè)界更為關(guān)注的。
隨著汽車智能化進(jìn)程加深,近幾年AI技術(shù)在汽車上的地位持續(xù)提高,包括自動(dòng)駕駛、智能座艙等都大量用到AI技術(shù)。那么ChatGPT的出現(xiàn),伴隨著這一輪新的熱潮,智能汽車領(lǐng)域會(huì)帶來(lái)哪些變化?
顛覆座艙語(yǔ)音交互體驗(yàn)?
對(duì)于ChatGPT的落地應(yīng)用,微軟給出的答案是搜索引擎,利用對(duì)話的方式給搜索引擎帶來(lái)顛覆性的交互體驗(yàn)。而在汽車上,目前在智能座艙中的一個(gè)顯著趨勢(shì)就是在交互上,逐步減少非必要的實(shí)體按鍵,轉(zhuǎn)向使用觸摸和語(yǔ)音等形式來(lái)對(duì)座艙不同功能進(jìn)行操作。
作為“Chat”功能為主的AI模型,我們很容易能聯(lián)想到ChatGPT技術(shù)被用到語(yǔ)音助手中,其中就包括當(dāng)前重語(yǔ)音交互的汽車智能座艙。語(yǔ)音交互流程中包含語(yǔ)音識(shí)別、自然語(yǔ)言理解/處理、自然語(yǔ)言生成、文字轉(zhuǎn)語(yǔ)音這幾項(xiàng)技術(shù),以目前主流廠商推出的產(chǎn)品來(lái)看,語(yǔ)音識(shí)別的準(zhǔn)確率已經(jīng)可以做到很高,而文字轉(zhuǎn)語(yǔ)音更加是已經(jīng)被普及到各大短視頻平臺(tái),視頻AI配音都幾乎可以實(shí)現(xiàn)以假亂真的效果。
但盡管語(yǔ)音助手這一應(yīng)用已經(jīng)在智能手機(jī)上大規(guī)模應(yīng)用十多年了,但發(fā)展似乎陷入一定程度的停滯,很多時(shí)候智能手機(jī)語(yǔ)音助手能夠準(zhǔn)確識(shí)別出用戶的話,但問題是依然無(wú)法準(zhǔn)確理解用戶的大部分指令,無(wú)法回答或是作出相應(yīng)指令。
如今車載語(yǔ)音交互在識(shí)別指令方面已經(jīng)有了一定進(jìn)步,可以識(shí)別連續(xù)的語(yǔ)音指令,但本質(zhì)上,語(yǔ)音助手依然只能識(shí)別一些固定的指令組合,而進(jìn)行相應(yīng)固定的操作。因此,車載語(yǔ)音助手實(shí)際上依然稱不上“智能”。
ChatGPT的出現(xiàn)可能將會(huì)給智能語(yǔ)音行業(yè)帶來(lái)一定改變,從之前的體驗(yàn)中我們已經(jīng)認(rèn)識(shí)到ChatGPT的對(duì)話能力,不僅能夠“理解”用戶的對(duì)話,還能結(jié)合上下文的語(yǔ)境來(lái)進(jìn)行有“邏輯”的交流。盡管由于數(shù)據(jù)來(lái)源的問題可能導(dǎo)致一些內(nèi)容準(zhǔn)確度不高,但在汽車座艙應(yīng)用中,或許可以結(jié)合這類語(yǔ)音模型來(lái)大幅提升車載語(yǔ)音交互的用戶體驗(yàn)。
目前車載語(yǔ)音的市場(chǎng)主要是科大訊飛和Cerence所主導(dǎo),但也有很多新勢(shì)力車企較早布局自研語(yǔ)音,比如小鵬、理想等,采用科大訊飛、思必馳、微軟等供應(yīng)商提供的底層技術(shù),自研出有特色的語(yǔ)音系統(tǒng)。比如小鵬主打的全場(chǎng)景語(yǔ)音,可以同時(shí)識(shí)別多人指令,并可以分辨出無(wú)效語(yǔ)義,實(shí)現(xiàn)邊說話邊提出指令。
如果ChatGPT或是其他有類似產(chǎn)品的公司入局車載語(yǔ)音,則有可能對(duì)目前各家語(yǔ)音技術(shù)供應(yīng)商的技術(shù)路線,或是整個(gè)市場(chǎng)格局,都會(huì)產(chǎn)生很大影響。
最近百度的類ChatGPT大模型AI交互項(xiàng)目文心一言,已經(jīng)有長(zhǎng)城、集度、哪吒、愛馳、嵐圖等車企宣布接入,但最終實(shí)際效果還需要產(chǎn)品裝車后才能知道了。
自動(dòng)駕駛能跟ChatGPT有什么關(guān)系?
ChatGPT從底層技術(shù)上看,是屬于NLP自然語(yǔ)言處理領(lǐng)域,但NLP并不局限于文字方面的應(yīng)用,視覺識(shí)別領(lǐng)域中Transformer大模型早已被廣泛應(yīng)用,而Transformer本身就屬于NLP領(lǐng)域的一種訓(xùn)練模型。
因此,ChatGPT可能不會(huì)直接對(duì)自動(dòng)駕駛產(chǎn)生什么推動(dòng)作用,而是在人機(jī)交互方面會(huì)有更大的貢獻(xiàn)。但ChatGPT背后的技術(shù)路線,可能會(huì)推動(dòng)自動(dòng)駕駛技術(shù)的發(fā)展。
在ChatGPT中,與以往的GPT模型不同的是加入了人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的技術(shù),利用人類提供的內(nèi)容來(lái)判斷自己回答質(zhì)量,從而不斷迭代改進(jìn)。據(jù)毫末智行介紹,在自動(dòng)駕駛領(lǐng)域中,這種技術(shù)可以通過不斷輸入真實(shí)人駕接管數(shù)據(jù),持續(xù)優(yōu)化自動(dòng)駕駛決策模型。
毫末智行近期表示將自動(dòng)駕駛認(rèn)知大模型正式升級(jí)為DriveGPT,未來(lái)將在大模型中使用RLHF算法,讓模型學(xué)習(xí)人類駕駛接管的數(shù)據(jù)。比如在同樣的駕駛環(huán)境下,如果人類駕駛的動(dòng)作與算法決策一致,不選擇接管,則記為一個(gè)good case;如果人類司機(jī)接管了,就記為一個(gè)bad case。即通過好壞的判斷引導(dǎo)自動(dòng)駕駛算法做出更接近人類的決策。
寫在最后
目前從車載應(yīng)用來(lái)看,類ChatGPT的最佳應(yīng)用場(chǎng)景只有車內(nèi)語(yǔ)音交互。有業(yè)內(nèi)人士認(rèn)為,車載語(yǔ)音市場(chǎng)空間并不大,目前幾乎壟斷該市場(chǎng)的科大訊飛和Cerence在該領(lǐng)域收入實(shí)際稱不上理想,這種情況下用訓(xùn)練成本極高的ChatGPT似乎有點(diǎn)小材大用。不過百度的文心一言近期已經(jīng)官宣上車,未來(lái)可以期待一下更加智能的語(yǔ)音對(duì)話在智能汽車上會(huì)帶來(lái)怎樣的體驗(yàn)變化。