隨著普通話在全國的大力推行,一些少數(shù)民族語言、方言等弱勢語言正逐瀕臨消亡。語言是全人類的共同財(cái)富,每種語言背后都有精彩的文化,因此利用人工智能技術(shù)實(shí)現(xiàn)對瀕臨語言的完整復(fù)制迫在眉睫。
目前世界上大約有6000~10000多種語言,而據(jù)語言學(xué)家預(yù)測大部分將于本世紀(jì)末消失。瀕危語言保護(hù)(下簡稱為“語保”)已經(jīng)成為一項(xiàng)重要而迫切的工作。在中國,普通話的優(yōu)勢地位已經(jīng)造成一些少數(shù)民族語言、方言等弱勢語言的使用人數(shù)明顯減少,如不及時(shí)對弱勢語言采取措施,我們將失去對人類文化遺產(chǎn)完整記錄的機(jī)會。
當(dāng)前方法手段不能滿足語保進(jìn)程
我國對語保工作早就有所重視,并有著深厚的方言研究基礎(chǔ)。2005年我國啟動國家語言資源保護(hù)工程(以下簡稱為“語保工程”),我國學(xué)者對方言保護(hù)的主要研究方法是田野調(diào)查,研究內(nèi)容包括中國語言資源有聲數(shù)據(jù)庫、方言詞典、方言地圖等。
國際語言學(xué)家也對瀕危語言進(jìn)行了語言資源記錄。2017年,美國科學(xué)家提出語音羅塞塔計(jì)劃,旨在通過“未知”語言的語音和“已知”語言的文本的平行關(guān)系記錄沒有文字的“未知”語言(即瀕危語言)。
歸納、確定被研究語言的基本音位是語言記錄的基本工作之一,但目前這項(xiàng)工作很大程度依賴于調(diào)查者對語音的主觀感知和“口耳”工作。由于依賴人工,分析語料局限于孤立字、詞,導(dǎo)致研究進(jìn)度受限,很難將研究內(nèi)容擴(kuò)大到連續(xù)語音,從音位歸納上升到句法、語義層面的分析。并且,很多中國方言,特別是南方方言中,孤立音節(jié)的聲韻調(diào)在連續(xù)話語中表現(xiàn)多變,在復(fù)雜的連續(xù)話語中,去除語境、韻律結(jié)構(gòu)、情感等諸多因素的干擾,歸納完整的語音變化單靠人力是力所不及的。
同時(shí),隨著社會發(fā)展的日新月異,每隔數(shù)年語言會發(fā)生明顯變化。因此,語言記錄和分析需要高效的解決方案。
利用AI技術(shù)實(shí)現(xiàn)“語言復(fù)制”迫在眉睫
利用人工智能技術(shù)系統(tǒng)地研究瀕危語言、方言的語音結(jié)構(gòu)、語言結(jié)構(gòu),實(shí)現(xiàn)對一種語言的完整“復(fù)制”迫在眉睫。
“語言復(fù)制”的概念是通過智能語音技術(shù)對一種語言實(shí)現(xiàn)完整記錄。記錄內(nèi)容包括確定該語言的語音結(jié)構(gòu)(例如音節(jié)語言的聲母、韻母、聲調(diào)等)、完整分析該語言的句法結(jié)構(gòu)、連續(xù)語音的音變和連讀變調(diào)分析、基本意義單位和主流語言的對應(yīng)關(guān)系以及這個(gè)語言的任意文本或語音和主流語言之間的互譯關(guān)系。
基于主流語言語音系統(tǒng),完成語音復(fù)制需要建立被研究語言的語音合成系統(tǒng)(文語轉(zhuǎn)換系統(tǒng))、語音識別系統(tǒng)以及和主流語音之間的翻譯系統(tǒng)。科大訊飛智能語音技術(shù)的發(fā)展和多年來的語言積累,可以助力語保工程。一些核心技術(shù)的突破和語言積累,使得不同語種之間互譯成為可能。
科大訊飛人工智能(AI)研究院有著豐厚的智能語音研究基礎(chǔ),到目前為止實(shí)現(xiàn)了中文、英文以外的30多種語言(包含多種少數(shù)民族語言)的語音合成、語音識別、翻譯,其中許多語音系統(tǒng)屬拓荒性系統(tǒng)。研究院基于深度學(xué)習(xí)技術(shù),采用全球文本、聲學(xué)解決方案,在除中文普通話、英語等強(qiáng)勢語言以外的許多語音合成系統(tǒng)上突破了語音合成MOS4.0的門檻,目前正嘗試在部分瀕危語言和方言上進(jìn)行語言復(fù)制。
需要更多熱愛母語的人參與
不同的研究目的會產(chǎn)生不同的語言分類。從人工智能的角度出發(fā),我們將語言分為主流語言和非主流語言。中文普通話就是主流語言。非主流語言又分為三個(gè)類別。第一類是文字、口語都被廣泛使用的語言,例如維吾爾語、藏語等。在這類語言的使用區(qū)域,雖然文字被廣泛使用,但是往往缺乏正字規(guī)范。第二類是有文字但較少使用、口語仍被正常使用的語言,例如彝語、錫伯語等,語言群體內(nèi)大多數(shù)成員僅限在家鄉(xiāng)口語交流時(shí)使用,多數(shù)群體成員不能熟練使用文字或基本不識字。第三類為瀕危語言及沒有文字的語言,包括只有少數(shù)老人還在使用、群體內(nèi)幾乎所有其他的成員都已放棄使用的語言以及沒有文字的語言。對這類語言進(jìn)行完整記錄比較困難,實(shí)現(xiàn)語言復(fù)制也有相當(dāng)難度。
對于文字、口語都被廣泛使用的語言實(shí)現(xiàn)語言復(fù)制是可行的;對于有文字但較少使用、口語仍被正常使用的語言,實(shí)現(xiàn)語言復(fù)制也是可能的。對于沒有文字的語言可以收集被研究語言的語音,并在有條件的情況下轉(zhuǎn)寫成主流語言的文字,使用這樣的平行數(shù)據(jù),利用人工智能領(lǐng)域的端—端技術(shù)實(shí)現(xiàn)被研究語言語音到主流語言文本之間的轉(zhuǎn)換,即美國科學(xué)家正在實(shí)施的“語音羅塞塔方案”,這在邏輯上是可行的。但被研究語言的采集、文本轉(zhuǎn)寫缺乏規(guī)范并存在許多具體困難。
在可能的情況下盡可能多地收集自然語音和文本的平行數(shù)據(jù)是十分有意義的。有了足夠大的數(shù)據(jù),即使目前處理不了,今后仍有機(jī)會可利用。利用人工智能技術(shù)進(jìn)行語言記錄是一個(gè)研究方法的問題,在具體工作中仍然需要采用正確的技術(shù)路線進(jìn)行操作,即使使用了人工智能技術(shù),語言數(shù)據(jù)的處理仍然脫離不了人力支持。語言是全人類的共同財(cái)富,每種語言背后都有精彩的文化。語保工程不應(yīng)該只是少數(shù)人的事業(yè),應(yīng)該有更多熱愛自己母語的人群參與。