語音識(shí)別是完成語音到文字的轉(zhuǎn)換。自然語言理解是完成文字到語義的轉(zhuǎn)換。語音合成是用語音方式輸出用戶想要的信息,用語音實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互,主要包括語音識(shí)別、自然語言理解和語音合成。
相對(duì)于機(jī)器翻譯,語音識(shí)別是更加困難的問題。機(jī)器翻譯系統(tǒng)的輸入通常是印刷文本,計(jì)算機(jī)能清楚地區(qū)分單詞和單詞串。而語音識(shí)別系統(tǒng)的輸入是語音,其復(fù)雜度要大得多,特別是口語有很多的不確定性。人與人交流時(shí),往往是根據(jù)上下文提供的信息猜測對(duì)方所說的是哪一個(gè)單詞,還可以根據(jù)對(duì)方使用的音調(diào)、面部表情和手勢等來得到很多信息。特別是說話者會(huì)經(jīng)常更正所說過的話,而且會(huì)使用不同的詞來重復(fù)某些信息。顯然,要使計(jì)算機(jī)像人一樣識(shí)別語音是很困難的。
語音識(shí)別過程包括從一段連續(xù)聲波中采樣,將每個(gè)采樣值量化,得到聲波的壓縮數(shù)字化表示。采樣值位于重疊的幀中,對(duì)于每一幀,抽取出一個(gè)描述頻譜內(nèi)容的特征向量。然后,根據(jù)語音信號(hào)的特征識(shí)別語音所代表的單詞,語音識(shí)別過程主要分為五步,如下:
01、語音信號(hào)采集
語音信號(hào)采集是語音信號(hào)處理的前提。語音通常通過話筒輸入計(jì)算機(jī)。話筒將聲波轉(zhuǎn)換為電壓信號(hào),然后通過A/D裝置(如聲卡)進(jìn)行采樣,從而將連續(xù)的電壓信號(hào)轉(zhuǎn)換為計(jì)算機(jī)能夠處理的數(shù)字信號(hào)。
目前多媒體計(jì)算機(jī)已經(jīng)非常普及,聲卡、音箱、話筒等已是個(gè)人計(jì)算機(jī)的基本設(shè)備。其中聲卡是計(jì)算機(jī)對(duì)語音信進(jìn)行加工的重要部件,它具有對(duì)信號(hào)濾波、放大、A/D和D/A轉(zhuǎn)換等功能。而且,現(xiàn)代操作系統(tǒng)都附帶錄音軟件,通過它可以驅(qū)動(dòng)聲卡采集語音信號(hào)并保存為語音文件。
對(duì)于現(xiàn)場環(huán)境不好,或者空間受到限制,特別是對(duì)于許多專用設(shè)備,目前廣泛采用基于單片機(jī)、DSP芯片的語音信號(hào)采集與處理系統(tǒng)。
02、語音信號(hào)預(yù)處理
語音信號(hào)號(hào)在采集后首先要進(jìn)行濾波、A/D變換,預(yù)加重(Preemphasis)和端點(diǎn)檢測等預(yù)處理,然后才能進(jìn)入識(shí)別、合成、增強(qiáng)等實(shí)際應(yīng)用。
濾波的目的有兩個(gè):一是抑制輸入信號(hào)中頻率超出//2的所有分量(/:為采樣頻率),以防止混疊干擾;二是抑制50 Hz的電源工頻干擾。因此,濾波器應(yīng)該是一個(gè)帶通濾波器。
A/D變換是將語音模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。A/D變換中要對(duì)信號(hào)進(jìn)行量化,量化后的信號(hào)值與原信號(hào)值之間的差值為量化誤差,又稱為量化噪聲。
預(yù)加重處理的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,便于頻譜分析。
端點(diǎn)檢測是從包含語音的一段信號(hào)中確定出語音的起點(diǎn)和終點(diǎn)。有效的端點(diǎn)檢測不僅能減少處理時(shí)間,而且能排除無聲段的噪聲干擾。目前主要有兩類方法:時(shí)域特征方法和頻域特征方法。時(shí)域特征方法是利用語音音量和過零率進(jìn)行端點(diǎn)檢測,計(jì)算量小,但對(duì)氣音會(huì)造成誤判,不同的音量計(jì)算也會(huì)造成檢測結(jié)果不同。頻域特征方法是用聲音的頻譜的變異和熵的檢測進(jìn)行語音檢測,計(jì)算量較大。
03、語音信號(hào)的特征參數(shù)提取
人說話的頻率在10 kHz以下。根據(jù)香農(nóng)采樣定理,為了使語音信號(hào)的采樣數(shù)據(jù)中包含所需單詞的信息,計(jì)算機(jī)的采樣頻率應(yīng)是需要記錄的語音信號(hào)中包含的最高語音頻率的兩倍以上。一般將信號(hào)分割成若干塊,信號(hào)的每個(gè)塊稱為幀,為了保證可能落在幀邊緣的重要信息不會(huì)丟失,應(yīng)該使幀有重疊。例如,當(dāng)使用20kH*的采樣頻率時(shí),標(biāo)準(zhǔn)的一幀為10 ms,包含200個(gè)采樣值。
話筒等語音輸入設(shè)備可以采集到聲波波形。雖然這些聲音的波形包含了所需單詞的信息,但用肉眼觀察這些波形卻得不到多少信息因此,需要從采樣數(shù)據(jù)中抽取那些能夠幫助辨別單詞的特征信息。在語音識(shí)別中,常用線性預(yù)測編碼技術(shù)抽取語音特征。
線性預(yù)測編碼的基本思想是:語音信號(hào)采樣點(diǎn)之間存在相關(guān)性,可用過去的若干采樣點(diǎn)的線性組合預(yù)測當(dāng)前和將來的采樣點(diǎn)值。線性預(yù)測系數(shù)埽以通過使預(yù)測信號(hào)和實(shí)際信號(hào)之間的均方誤差最小來唯一確定。
語音線性預(yù)測系數(shù)作為語音信號(hào)的一種特征參數(shù),已經(jīng)廣泛應(yīng)用于語音處理各個(gè)領(lǐng)域。
04、向置量化
向量量化(Vector Quantization,VQ)技術(shù)是20世紀(jì)W年代后期發(fā)展起來的一種數(shù)據(jù)壓縮和編碼技術(shù)。經(jīng)過向量量化的特征向量也可以作為后面隱馬爾可夫模型中的輸入觀察符號(hào)。
在標(biāo)量量化中整個(gè)動(dòng)態(tài)范圍被分成若干個(gè)小區(qū)間,每個(gè)小區(qū)間有一個(gè)代表值,對(duì)于一個(gè)輸入的標(biāo)量信號(hào),量化時(shí)落入小區(qū)間的值就用這個(gè)代表值>[戈替。因?yàn)檫@時(shí)的信號(hào)量是一維的標(biāo)量,所以稱為標(biāo)量量化。
向量量化的概念是用線性空間的觀點(diǎn)[,把標(biāo)量改為一維的向量,對(duì)向量進(jìn)行量化。和標(biāo)量量化一樣,向量量化是把向量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表向量,量化時(shí)落入小區(qū)域的向量就用這個(gè)代表向量代替。
向量量化的基本原理是將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)向量(或者是從一幀語音數(shù)據(jù)中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。
05、語音識(shí)別
當(dāng)提取聲音特征集合以后,就可以識(shí)別這些特征所代表的單詞。本節(jié)重點(diǎn)關(guān)注單個(gè)單詞的識(shí)別。識(shí)別系統(tǒng)的輸入是從語音信號(hào)中提取出的特征參數(shù),如LPC預(yù)測編碼參數(shù),當(dāng)然,單詞對(duì)應(yīng)于字母序列。語音識(shí)別所采用的方法一般有模板匹配法、隨機(jī)模型法和概率語法分析法三種。這三種方法都是建立在最大似然決策貝葉斯(Bayes)判決的基礎(chǔ)上的。
(1)模板(template)匹配法
在訓(xùn)練階段,用戶將詞匯表中的每一個(gè)詞依次說一遍,并且將其特征向量作為模板存入模板庫。在識(shí)別階段,將輸入語音的特征向量序列,依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。
(2)隨機(jī)模型法
隨機(jī)模型法是目前語音識(shí)別研究的主流。其突出的代表是隱馬爾可夫模型。語音信號(hào)在足夠短的時(shí)間段上的信號(hào)特征近似于穩(wěn)定,而總的過程可看成是依次相對(duì)穩(wěn)定的某一特性過渡到另一特性。隱馬爾可夫模型則用概率統(tǒng)計(jì)的方法來描述這樣一種時(shí)變的過程。
(3)概率語法分析法
這種方法是用于大長度范圍的連續(xù)語音識(shí)別。語音學(xué)家通過研究不同的語音語譜圖及其變化發(fā)現(xiàn),雖然不同的人說同一些語音時(shí),相應(yīng)的語譜及其變化有種種差異,但是總有一些共同的特點(diǎn)足以使他們區(qū)別于其他語音,也即語音學(xué)家提出的“區(qū)別性特征”。另一方面,人類的語言要受詞法、語法、語義等約束,人在識(shí)別語音的過程中充分應(yīng)用了這些約束以及對(duì)話環(huán)境的有關(guān)信息。于是,將語音識(shí)別專家提出的“區(qū)別性特征”與來自構(gòu)詞、句法、語義等語用約束相互結(jié)合,就可以構(gòu)成一個(gè)“自底向上”或“自頂向下”的交互作用的知識(shí)系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來描述。
除了上面的三種語音識(shí)別方法外,還有許多其他的語音識(shí)別方法。例如,基于人工神經(jīng)網(wǎng)絡(luò)的語音識(shí)別方法,是目前的一個(gè)研究熱點(diǎn)。目前用于語音識(shí)別研究的神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、Kohcmen特征映射神經(jīng)網(wǎng)絡(luò)等,特別是深度學(xué)習(xí)用于語音識(shí)別取得了長足的進(jìn)步。