能線上解決的就絕不見面,已經(jīng)成了疫情期間人際交往的頭號鐵律。
絕大多數(shù)溝通都轉(zhuǎn)移到線上,是一種什么體驗?
最近百度公布的數(shù)據(jù)顯示,自1月25日春節(jié)假期以來,百度輸入法日均語音請求量已破10億次大關(guān),再創(chuàng)行業(yè)歷史新高。
除了高流量帶來的沖擊,還需要應(yīng)對大量新增長尾群體,比如偏遠(yuǎn)地區(qū)人員、中老年人、少年兒童等等,諸多傳統(tǒng)場景的線上化,也讓使用頻率和形形色色的需求開始激增。
毫無疑問,疫情期間的特殊需求驅(qū)動著輸入法行業(yè)迎擊新的挑戰(zhàn),也讓百度輸入法這顆磐石浮出水面。
全民語音輸入浪潮,需要怎樣的技術(shù)進(jìn)行支撐?AI驅(qū)動的輸入法又給社會網(wǎng)絡(luò)生活帶來了哪些變化,是一個智能時代背景下,值得思考的關(guān)鍵命題。
數(shù)據(jù)洪流下的語音輸入法,需要一副怎樣的鋼筋鐵骨?
一個輸入法而已,技術(shù)要求有那么高嗎?想得太簡單了朋友,全語音交互的輸入法,和傳統(tǒng)輸入法還是有著本質(zhì)不同。
第一,語音輸入想要達(dá)到高標(biāo)準(zhǔn)輸入的水平,所面對的技術(shù)難題要比傳統(tǒng)輸入法復(fù)雜得多。
比如語音輸入勢必會出現(xiàn)環(huán)境噪音,如果算法不夠強(qiáng),很有可能識別不清,還需要用戶手動調(diào)整,大大降低產(chǎn)品的效率;
再比如,語音輸入需要實(shí)時轉(zhuǎn)換,又不能過多占用系統(tǒng)算力出現(xiàn)卡頓,這就對軟件的智能優(yōu)化提出了要求。
而百度輸入法之所以成為特殊時期人們的溝通首選,也得益于在語音識別上的技術(shù)優(yōu)勢。在2019年,百度輸入法在線語音識別準(zhǔn)確率相對提升15%,超越行業(yè)最優(yōu)競品15%,才能抗住用戶對語音輸入的高標(biāo)準(zhǔn)、嚴(yán)要求,再次刷新業(yè)界紀(jì)錄。
第二,訪問量的激增也勢必會讓輸入法遭遇各種不同的網(wǎng)絡(luò)環(huán)境。
對于一些偏遠(yuǎn)地區(qū)或受天氣原因影響,導(dǎo)致手機(jī)網(wǎng)絡(luò)信號不穩(wěn)定時,聯(lián)網(wǎng)狀態(tài)不佳的輸入法就很有可能出現(xiàn)識別成功率低、識別速度慢等情況。
此前,大部分輸入法會借助離線語音包來彌補(bǔ),但在體驗上卻與在線語音相差懸殊,并不能解決廣大用戶的痛點(diǎn)。
這次全民觸網(wǎng),百度輸入法就以離線語音輸入準(zhǔn)確率高于行業(yè)平均水平35%的優(yōu)勢,確保網(wǎng)絡(luò)不佳狀態(tài)下的用戶依然能夠順暢使用。
第三,越來越豐富的人口多元化、經(jīng)濟(jì)全球化趨勢,也讓輸入法開始應(yīng)對外語輸入、混合輸入等難題。
以前如果上海某CBD白領(lǐng)進(jìn)行辦公交流,如果要摻雜一些專有英文詞匯,往往需要反復(fù)在中英文輸入中切換,效率低不說,還經(jīng)常容易出錯。
百度輸入法通過技術(shù)創(chuàng)新,在完全不影響中文語音輸入準(zhǔn)確率的情況下,實(shí)現(xiàn)了高精準(zhǔn)的中英文混合語言識別輸入。
在2019年百度AI開發(fā)者大會上,百度輸入法就當(dāng)場挑戰(zhàn)了零誤差識別中英文混合“Rap”——“你的這個新model效果比baseline好多少,探索技術(shù)的depth和scope是我們的責(zé)任,我很喜歡barrier這個詞,AI的value其實(shí)就是break barrier。”
在當(dāng)下的國際化、中英文日漸頻繁的互聯(lián)網(wǎng)交流語境中,百度輸入法獲得日均10億次的語音請求量,也就不足為怪了。
第四,如果說中英文識別考驗的是技術(shù)深度,那么方言識別就考驗著輸入法廠商的語料庫廣度與技術(shù)布局的前瞻性。
尤其是移動智能開始向更廣大用戶下沉,越來越多的方言用戶也渴望通過語音更高效地交互,但不同于英文的豐富語料,精準(zhǔn)識別方言需要前期進(jìn)行大量的數(shù)據(jù)收集、標(biāo)注、清洗、訓(xùn)練、優(yōu)化等工作,加上中國各地方言數(shù)量多,其中還夾雜著各種小眾俚語,難度更是指數(shù)級上升。
而百度輸入法通過技術(shù)優(yōu)化,將普通話和六大方言融合成一個語音識別模型,實(shí)現(xiàn)了方言與方言、方言與普通話的混合語音輸入,讓用戶可以免切換就能“方言自由說”,free is not free(自由不是免費(fèi)的),人情味的背后則是百度輸入法技術(shù)人員的不懈努力。
當(dāng)然,在語音技術(shù)上完成業(yè)界頂級考驗,似乎是百度這個“以AI為名”的科技公司的應(yīng)有之義。
而用戶的標(biāo)準(zhǔn)卻遠(yuǎn)遠(yuǎn)不止如此。我們知道,停課停學(xué)讓許多95后、00后也以前所未有的參與度加入了網(wǎng)絡(luò)大軍。
他們的要求可不僅僅是“聽得懂、聽得清、聽得快”,還需要炫酷好玩才能占據(jù)手機(jī)C位。
此時,百度輸入法的綜合AI實(shí)力就開始顯效,通過圖像識別、AR等技術(shù)的引入,讓輸入法得以擁有AI斗圖、神句配圖、凌空手寫、皮膚主體C位識別等超越語音、文字的特色功能,也成為業(yè)內(nèi)首家可以多場景整句智能預(yù)測的輸入法產(chǎn)品,成功俘獲了眾多“Z世代”用戶的心。
至此,百度輸入法開始讓“輸入”這個司空見慣的網(wǎng)絡(luò)沖浪動作,開始向“全感官時代”邁進(jìn)。
不難看到,作為人與機(jī)器交流的直接媒介,百度輸入法能夠抗住特殊時期的數(shù)據(jù)洪流與挑剔眼光,依靠的就是支撐起體驗質(zhì)變的“技術(shù)長城”。
千錘百煉:百度輸入法背后的“技術(shù)長城”是如何煉成的?
在明確了百度輸入法與技術(shù)支持之間密不可分的聯(lián)系之后,就不難理解其為何能托起日均10億次語音請求量的龐大需求。
當(dāng)然,在線訪問激增只是誘因,之所以能贏得這場無形戰(zhàn)爭,核心在于百度輸入法已經(jīng)構(gòu)筑起了一個固若金湯的技術(shù)長城,足以抵御外界洪流。
在此,可以將百度輸入法拆解成幾個核心構(gòu)件:
1.自研SMLTA模型的技術(shù)底座。
在國際上,我們常常會將百度與中國AI力量代表聯(lián)系在一起,它的技術(shù)能力到底強(qiáng)于何處,足以寫一部書來說明。
但支撐起百度輸入法與廣大用戶之間的緊密聯(lián)系,核心就在于自主研發(fā)的流式截斷的多層注意力模型——Streaming trancated multi-layer attention(SMLTA)。
是不是每個漢字都認(rèn)識,但組合起來卻不知道是干嘛的?這是去年百度在語音技術(shù)上的一項重大創(chuàng)新,在全世界范圍內(nèi),第一次將基于注意力技術(shù)的在線語音識別服務(wù),大規(guī)模地應(yīng)用于輸入法產(chǎn)品,服務(wù)數(shù)億用戶。
截斷:改變了原本的整句識別建模,變成了局部一小段語音的注意力模型,比如將中文、英文、方言等截斷,在保證主體精度不降低的同時,可以更有效地去識別其他內(nèi)容;
流式:簡單來說就是用戶一邊說話,算法一邊根據(jù)上傳的語音數(shù)據(jù)來識別。好處是可以實(shí)時調(diào)整,減少延遲,從而避免了用戶上傳識別的較長等待。
多級:傳統(tǒng)的注意力模型面對的句子越長,對語音數(shù)據(jù)的特征選擇和匹配難度就越大,出錯的概率也會更高。但SMLTA引入了多級注意力機(jī)制,讓機(jī)器對語音特征進(jìn)行層層遞進(jìn)的選擇,讓模型的識別率甚至能夠超越傳統(tǒng)的全局注意力模型。
這也是為什么,流式解碼中,機(jī)器只能接收部分片段,模型精度也往往會低于整句。但SMLTA就能做到,在邊說邊識別的前提下保持足夠的精準(zhǔn)度。
SMLTA模型的另一個創(chuàng)新之處在于,將CTC(一種語音識別算法)和Attention模型集結(jié)在一起,借助CTC的端到端訓(xùn)練,來輔助提高注意力模型的精度。讓注意力模型在自動尋找每個字的大概范圍時,借助CTC來做截斷,幫助它更精準(zhǔn)地定位。
總的來說,SMLTA模型解決了兩個體驗難題:一是滿足實(shí)時率,降低延遲,大幅優(yōu)化了用戶體驗;二是提高離線與在線語音識別率,在行業(yè)中獲得全面領(lǐng)先。
這不僅僅是百度語音的技術(shù)制高點(diǎn),也代表了中文語音識別技術(shù)躋身世界頂流的榮耀和貢獻(xiàn);
同時,SMLTA模型在百度輸入法產(chǎn)品上大規(guī)模上線,服務(wù)中國數(shù)億用戶,借助云端智能實(shí)現(xiàn)了產(chǎn)業(yè)端的低成本落地,讓實(shí)驗室技術(shù)得以真正賦能每一個人,這也成為百度AI產(chǎn)業(yè)化能力的佐證,也讓百度輸入法一躍成為AI語音技術(shù)落地的“領(lǐng)路人”。
2.AI技術(shù)的累累磚石。
當(dāng)然,完整的產(chǎn)品體驗也需要完整的技術(shù)矩陣來支撐。如果說SMLTA模型“高舉高打”,奠定了百度輸入法的絕對差異化優(yōu)勢,那么AI技術(shù)的全面鋪開,就成了百度輸入法技術(shù)長城所必不可少的一磚一石。
比如,百度輸入法就利用深度神經(jīng)網(wǎng)絡(luò)對輸入文本進(jìn)行建模,打造出了智能預(yù)測功能。
它可以根據(jù)用戶的使用習(xí)慣,在已輸入詞語的基礎(chǔ)上進(jìn)行長句補(bǔ)全,大大提高了輸入效率。在游戲、聊天等場景中,只需要輸入開頭幾個字,比如“為什么”,百度輸入法就會根據(jù)前后語境自動聯(lián)想,彈出“為什么不理我”“為什么不打上路”等提示,極大地方便了大家網(wǎng)上對話(對罵)有沒有?
目前“智能預(yù)測”已經(jīng)在微信、QQ、淘寶、王者榮耀、絕地求生等場景實(shí)現(xiàn)整句預(yù)測推薦,還可以根據(jù)不同應(yīng)用與不同場景,提供不同的預(yù)測。
再來說說其他AI技術(shù)應(yīng)用。
想要讓用戶將自己從畫面中完整地“摳出來”,做成AR表情,就需要圖像分割技術(shù)的支持,讓機(jī)器很好地識別出圖片內(nèi)容,進(jìn)而疊加上全景動態(tài)素材,才能實(shí)現(xiàn)將人物置身于虛擬場景的效果。
2019年,百度輸入法的“AR表情”功能使用次數(shù)就已超過1億,可見基于AI的創(chuàng)新已經(jīng)在不知不覺中滲透進(jìn)了年輕人的社交語境當(dāng)中。
另外值得一提的是炫酷的凌空手寫。
如果說語音輸入是引領(lǐng)行業(yè)的操作,那么凌空手寫可以說是率先感受未來的。
百度通過雙神經(jīng)網(wǎng)絡(luò)模型——一個基于灰度圖的指尖跟蹤模型,另一個基于多方向特征文字識別模型,讓用戶只需要最普通的RGB攝像頭,就可以實(shí)現(xiàn)手在空中揮舞,輸入法就能精準(zhǔn)識別出來。
為了保證識別結(jié)果的連續(xù)和穩(wěn)定性,百度輸入法的研發(fā)團(tuán)隊還針對鋸齒和連筆在三維空間的手寫識別算法進(jìn)行了大量優(yōu)化工作,并準(zhǔn)備大規(guī)模應(yīng)用。
可以說,百度輸入法又一次站在了行業(yè)橋頭,引領(lǐng)著產(chǎn)業(yè)技術(shù)迭代的方向。
等待百度輸入法補(bǔ)全的產(chǎn)業(yè)續(xù)曲
通過拆解百度輸入法的技術(shù)路徑,可以更為清晰地看到,在未來的一段時間內(nèi),AI托起的技術(shù)盛景,將如何更好地推動社會升級。
首先,語音技術(shù)在應(yīng)用端的想象空間被進(jìn)一步打開。
隨著大規(guī)模用戶習(xí)慣的養(yǎng)成,語音輸入等AI功能的落地也成為撬動行業(yè)格局的下一個賽點(diǎn)。
艾媒咨詢《2019中國第三方手機(jī)輸入法市場年度專題研究報告》數(shù)據(jù)顯示,百度輸入法全年月活增速居行業(yè)首位,表現(xiàn)最佳。
其次,百度的技術(shù)本位,在輸入法產(chǎn)品上又一次被成功印證。
輸入法作為線上交互的入口,也是最能夠真實(shí)反映網(wǎng)絡(luò)狀態(tài)和現(xiàn)實(shí)趨勢的窗口??梢钥吹降氖牵珹I與產(chǎn)品的結(jié)合,即將改變千行萬業(yè)的市場格局。
提升社會生產(chǎn)效率,恢復(fù)和持續(xù)發(fā)展經(jīng)濟(jì),各行各業(yè)都離不開智能工具的支持。AI產(chǎn)品服務(wù)的用戶邊界也在快速擴(kuò)大,這不僅考驗著科技產(chǎn)品廠商的技術(shù)高度,也要求在產(chǎn)業(yè)化落地上交付出成熟的解決方案。
從這個角度看,單日語音請求量破10億次并不是一個偶然事件,其背后連接的是百度AI技術(shù)體系的多年布局、輸入法產(chǎn)品的迭代方向、用戶需求洞察的敏銳視角,這些要素的迭代,才最終讓我們看到了這場技術(shù)領(lǐng)域的驚濤拍岸。
手握技術(shù)之權(quán)杖,才得見崢嶸歲月,無懼風(fēng)流 。