“OK Beeb,播放Radio 1。”
與Siri一樣,Beeb不是硬件設(shè)備,而是內(nèi)置于BBC網(wǎng)站和iPlayer TV流媒體服務(wù)的數(shù)字化語音助手。如果你想聽相關(guān)廣播電臺、播客或新聞,可以通過語音互動的方式進(jìn)行點(diǎn)播,當(dāng)然,你想要聽笑話,它也會立馬為你隨機(jī)播放節(jié)目中的英式段子。
不同于Siri這種被用戶長期吐槽為“雞肋” 的通用類語音助手,Beeb是一款由BBC打造的定制化語音助手,“定制化”能力使其在業(yè)務(wù)場景中部署時(shí)更加靈活,適配媒體在AI時(shí)代變革的需求。
對媒體行業(yè)而言,從紙媒到電視、互聯(lián)網(wǎng)媒體的發(fā)展,每一次技術(shù)變革都意味著用戶獲取信息的交互方式會發(fā)生巨大改變,而沒有緊跟技術(shù)發(fā)展的傳媒公司在影響力上會加劇衰落,甚至淘汰出局。
隨著新一輪智能技術(shù)的沖擊,原有的媒體與用戶交互的方式也必然發(fā)生改變。顯然,通過利用智能語音等AI技術(shù)來構(gòu)建媒體的虛擬形象、為用戶直接提供VIP式樣的個(gè)性化服務(wù)是一大趨勢。
當(dāng)然,除了媒體行業(yè),這種交互模式也會為更多企業(yè)服務(wù)領(lǐng)域帶來顛覆性的創(chuàng)新,比如通過構(gòu)建符合品牌特點(diǎn)的語音形象,讓用戶在認(rèn)知上更加立體化。
要達(dá)到這一目標(biāo),高質(zhì)量的個(gè)性化語音必不可少。不過,盡管市面上有諸多語音技術(shù)方案提供商,但定制化語音技術(shù)的部署遠(yuǎn)不是簡單的接入API和SDK,而是需要諸多細(xì)致、繁雜的優(yōu)化工作,才可能積累出一個(gè)可復(fù)制的模式。
作為深耕語音技術(shù)的巨頭企業(yè)之一,微軟正在利用Azure云計(jì)算技術(shù)與定制化語音技術(shù)將AI對話機(jī)器人的開發(fā)經(jīng)驗(yàn),賦能給BBC等各行業(yè)企業(yè)。
那么,從BBC語音助手這個(gè)標(biāo)桿案例出發(fā),微軟如何搞定這個(gè)“挑剔的”客戶?他們的定制化語音技術(shù)有什么不同要求?又如何將它更好地落地到各行各業(yè)?相信微軟的技術(shù)落地實(shí)踐會為行業(yè)解決方案帶來一定啟發(fā)。
BBC為什么選擇微軟做定制化語音技術(shù)
如上所述,你可以認(rèn)為BBC的Beeb類似于微軟Cortana對話機(jī)器人,但區(qū)別在于Beeb是技術(shù)和場景需求都是“定制化”的。
先從需求說起。隨著AI等新技術(shù)的沖擊,BBC作為全球老牌的新聞和內(nèi)容生產(chǎn)商之一,出于品牌策略和個(gè)性化元素的考慮,也開始尋求通過技術(shù)創(chuàng)新提升業(yè)務(wù)體驗(yàn),比如通過多形式與用戶做媒體交互,其中語言互動是一大新形式。
有了特定需求,就要有相應(yīng)的語音技術(shù)做支撐。微軟云計(jì)算與人工智能事業(yè)部語音組首席研發(fā)經(jīng)理張曉洲介紹,Beeb與Cortana的目標(biāo)和功能并不相同,背后的技術(shù)也會有所不同,但有一點(diǎn)是肯定的:通用的語音技術(shù)無法滿足客戶特定需求。
Cortana 樣例鏈接:
https://www.bilibili.com/video/BV1gz4y1975b?from=search&seid=3111783444939535265
對有著高標(biāo)準(zhǔn)要求的BBC來說,他們需要Beeb發(fā)出標(biāo)準(zhǔn)英式發(fā)音,甚至細(xì)化到英國北部某個(gè)特定地區(qū)的口音風(fēng)格,這需要在技術(shù)方面有非常強(qiáng)的細(xì)節(jié)實(shí)現(xiàn)能力。
還有多風(fēng)格的要求,比如在跟真人打招呼時(shí),聲音需要符合個(gè)人助理身份的互動風(fēng)格,而在播報(bào)政治、軍事類比較嚴(yán)肅的新聞時(shí),就需要嚴(yán)肅的聲音風(fēng)格。
微軟團(tuán)隊(duì)需要解決這兩大難題。在BBC提供的不到2000句的錄音人數(shù)據(jù)量中,他們基于主播的數(shù)據(jù),與語言專家、客戶挑選和分析特定口音的發(fā)音特點(diǎn),然后匯總成模型能識別的規(guī)律,最后構(gòu)建到定制化模型里,生成高質(zhì)量、多風(fēng)格的聲音。
張曉洲表示,建立聲音模型看似簡單,但這只是定制化語音技術(shù)的一小部分。更重要的是,微軟平臺提供了從選型、數(shù)據(jù)處理到訓(xùn)練的端到端解決方案。
定制化語音技術(shù)優(yōu)勢:更少的訓(xùn)練數(shù)據(jù)、更個(gè)性化的音色
2018年5月,微軟推出聲音定制的自助服務(wù)平臺(customvoice.ai),但那時(shí)還是基于傳統(tǒng)的訓(xùn)練方法來讓用戶自助生成聲音模型,現(xiàn)在,通過基于深度神經(jīng)網(wǎng)絡(luò)的定制化語音技術(shù)可以在更少訓(xùn)練數(shù)據(jù)的情況下,使得輸出的聲音效果有大幅提升。
業(yè)內(nèi)做語音合成此前有兩種方法,一種是參數(shù)語音合成,另一種則是拼接合成。參數(shù)語音合成需要對音庫進(jìn)行參數(shù)化建模,根據(jù)訓(xùn)練得到的模型預(yù)測出韻律參數(shù)和聲學(xué)參數(shù)。而波形拼接語音合成就是在語料庫中抽取合適的拼接單元,拼接成為句子。在應(yīng)用效果上,拼接合成的語音更加貼近真實(shí)發(fā)音,而通過參數(shù)合成的語音更穩(wěn)定。
但現(xiàn)在,微軟的基于深度神經(jīng)網(wǎng)絡(luò)的語音合成方案兼具上述兩種方法的優(yōu)點(diǎn),且在具體應(yīng)用體驗(yàn)上有更好的效果。
首先是念得更準(zhǔn),這是從文字轉(zhuǎn)化為聲音的預(yù)處理階段所要達(dá)成的目標(biāo)。早前,基于規(guī)則的方法來提升準(zhǔn)確性,但面對中文里的多音字和數(shù)字年份的具體念法,導(dǎo)致經(jīng)常會漏掉一些特殊字詞的念法,而采用深度神經(jīng)網(wǎng)絡(luò)的方法則把語音合成的精度提升到超過99%,完全匹配甚至超越了人類對文字的處理能力。
除了發(fā)音準(zhǔn)確之外,還需要做到清晰自然的發(fā)音。傳統(tǒng)的TTS用到的拼接合成方法通過把語音數(shù)據(jù)分成一個(gè)個(gè)單元后進(jìn)行拼接,但其局限性在于語音合成的聲音韻律不夠自然、平滑,并且需要算法學(xué)習(xí)大量的訓(xùn)練數(shù)據(jù)。
2018年年底,微軟語音團(tuán)隊(duì)使用其提出的實(shí)時(shí)深度神經(jīng)網(wǎng)絡(luò)模型去預(yù)測語言的韻律信息,生成的語音會結(jié)合上下文產(chǎn)生像真人一樣有自然的韻律。
最后是音質(zhì)高。此前,業(yè)內(nèi)普遍采用的參數(shù)合成方法,但生成聲音會明顯夾雜不自然的機(jī)械聲。隨后,他們采用深度神經(jīng)網(wǎng)絡(luò)的聲碼器,把聲學(xué)表示到最終的波形進(jìn)行了高質(zhì)量的恢復(fù)。
相較之下,即便在有比較高質(zhì)量數(shù)據(jù)的前提下,傳統(tǒng)的模型訓(xùn)練方法效果也不盡人意。而深度神經(jīng)網(wǎng)絡(luò)模型具備預(yù)測能力,可以把多風(fēng)格的模型組合起來,更加靈活地把握企業(yè)所需的語音風(fēng)格特征,大幅提升語音應(yīng)用效果。在此過程中,所需的訓(xùn)練數(shù)據(jù)也變得更少。
張曉洲舉例,“傳統(tǒng)的語音合成效果要達(dá)到MOS分4分以上是很困難的,并且所需的訓(xùn)練數(shù)據(jù)可能要五千句話以上,有時(shí)要將近一萬句以上的數(shù)據(jù)量,像基于深度神經(jīng)網(wǎng)絡(luò)的TTS量級已經(jīng)降到了兩千句以內(nèi),通常五百句話以上就能達(dá)到相當(dāng)不錯(cuò)的效果,當(dāng)然進(jìn)一步增加到兩千句的話能夠讓質(zhì)量接近真人的水平。”
與市面上提供類似定制化語音技術(shù)的公司相比,張曉洲評價(jià),現(xiàn)在有一些語音公司的樣音效果很不錯(cuò),但在規(guī)?;涞貢r(shí),穩(wěn)定性和高可用性方面尚還有很大的提升空間。其次,在可用的基礎(chǔ)上,他認(rèn)為語音技術(shù)應(yīng)用還要往個(gè)性化、低成本、低門檻方向發(fā)展,使每個(gè)人都可以受益。
微軟定制化語音技術(shù)的優(yōu)勢在于,可以用更少的數(shù)據(jù)達(dá)到更加高擬人度和自然韻律的效果,且能多風(fēng)格定制,此外還支持多語言定制,除了能說標(biāo)準(zhǔn)的英式口音,同樣可以為聲音賦能,說出中文、日文等其他個(gè)性化定制語言。
隨著越來越多企業(yè)應(yīng)用語音合成技術(shù)實(shí)現(xiàn)自然人機(jī)交互,在商業(yè)層面規(guī)?;赝瞥龈觽€(gè)性化的符合品牌特征的形象化聲音將是語音定制技術(shù)發(fā)展的新目標(biāo),也會越來越成為傳統(tǒng)企業(yè)在做AI和數(shù)字化轉(zhuǎn)型中的重要考量。
不止媒體,微軟定制化語音技術(shù)正落地到各行各業(yè)
除了將定制化語音技術(shù)落地到媒體行業(yè),微軟正在逐步將技術(shù)落地到各行業(yè)領(lǐng)域。
微軟云計(jì)算與人工智能事業(yè)部語音組首席產(chǎn)品經(jīng)理廖勤櫻介紹了智能家居場景下的應(yīng)用案例,比如與瑞士電信Swisscom合作了一款定制化語音助手,用在智能電視機(jī)頂盒或是智能TV家用的路由器等設(shè)備中,幫助用戶播放內(nèi)容。
此外,他們還與小米合作了基于手機(jī)的語音助理,比如用明星代言人王源的聲音數(shù)據(jù)去復(fù)現(xiàn)他本人的聲音,用在鬧鐘、起床等一些基于手機(jī)的智能助理功能。
微軟還做了一些公益類的項(xiàng)目,比如為了讓視障人士擁有更好的閱讀體驗(yàn),他們與NGO組織紅丹丹合作,以中國第一位視障播音員董麗娜的聲音數(shù)據(jù)作為原型,合成有聲書,投入到全國105所盲校。
對微軟來說,case by case的項(xiàng)目制的落地效率顯然很低。為了讓更多企業(yè)可以快速定制高品質(zhì)的個(gè)性化語音,張曉洲的團(tuán)隊(duì)正在開發(fā)一套完全自動化的、可自助服務(wù)的深度神經(jīng)網(wǎng)絡(luò)語音定制化平臺。
語音定制化平臺鏈接:
https://speech.microsoft.com/customvoice
目前,通過微軟云Azure平臺集成后,已經(jīng)形成一套端到端的定制化語音技術(shù)解決方案,具有高可定制化、高可擴(kuò)展能力,同時(shí)具備可媲美人類發(fā)音能力的基礎(chǔ)模型。這個(gè)基礎(chǔ)模型利用了上百萬句不同發(fā)音人、不同語言的海量數(shù)據(jù)訓(xùn)練,使其能夠模擬各種發(fā)音模式。通過學(xué)習(xí)少量發(fā)音人樣本,提取出發(fā)音人特征,利用這個(gè)基礎(chǔ)模型,就可以準(zhǔn)確的模擬出真人的發(fā)音效果。在沒有任何微軟員工參與的情況下,用戶完全可以在Customvoice.ai平臺上自主創(chuàng)建一個(gè)符合業(yè)務(wù)需求的高質(zhì)量定制化模型。張曉洲稱,“平臺上提供了數(shù)據(jù)檢查,包括錄音腳本、錄音音頻文件的篩選,模型的訓(xùn)練評估和測試,以及驗(yàn)收部署,全部都可以自助在一個(gè)平臺上完成。”
最后,對于上傳語音數(shù)據(jù),用戶必然非常關(guān)注數(shù)據(jù)安全和隱私保護(hù)問題。實(shí)際上,微軟在這一點(diǎn)上非常注重相關(guān)倫理規(guī)范,他們還推出“負(fù)責(zé)任的AI”規(guī)范,確保AI技術(shù)不被濫用。
微軟團(tuán)隊(duì)介紹,從用戶的使用、申請,包括最終的部署和把聲音運(yùn)用在實(shí)際的應(yīng)用場景里,微軟對客戶的語音數(shù)據(jù)都有一套成熟規(guī)范,確保技術(shù)用在積極正面的應(yīng)用場景中。
具體而言,任何客戶訓(xùn)練數(shù)據(jù)前首先需要獲得錄音人的首肯才能使用微軟的語音平臺。其次,在使用的過程當(dāng)中,微軟會采取措施去驗(yàn)證語音數(shù)據(jù)本身的可信度。最后,當(dāng)語音數(shù)據(jù)部署使用后,如若錄音人對聲音的使用存有異議,可以通過微軟的報(bào)告機(jī)制,達(dá)成事后監(jiān)督;另外,微軟開發(fā)的智能檢測技術(shù),還可以對聲音進(jìn)行甄別以判斷是否是合成聲音,甚至檢測微軟的定制化語音技術(shù)訓(xùn)練出來的聲音模型。