國家電網(wǎng)公司在人工智能方向上研究攻關(guān)一直是重點(diǎn)投入,設(shè)備運(yùn)維管理是人工智能應(yīng)用的核心領(lǐng)域之一,涉及圖像識別、視頻分析、聲紋識別、知識圖譜、數(shù)據(jù)智能等多個方面。
聲紋識別可以解決那些方面的問題呢?變電設(shè)備異常工況的診斷檢測,如:變壓器、電抗器、斷路器、隔離開關(guān)等主設(shè)備內(nèi)部不可見缺陷的準(zhǔn)確診斷識別,此外繞組變形、偏磁異常、內(nèi)部放電等方面的診斷也在探索研究。
那聲紋識別到底是怎么回事呢?
同屬于生物識別技術(shù),與火爆的人臉識別相比,聲紋識別表現(xiàn)得很低調(diào),然而這并不影響這一黑科技魅力的散發(fā),本文將帶你認(rèn)識一下聲音黑科技-聲紋識別,讓你了解真正的“聞聲識人”。
本文將從如下方面為你一一解讀:
什么是聲紋?
聲紋識別的原理
聲紋識別算法的技術(shù)指標(biāo)
影響聲紋識別水平的因素
聲紋識別的應(yīng)用流程
聲紋識別的應(yīng)用場景
一、什么是聲紋?
聲紋(Voiceprint),是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜,是由波長、頻率以及強(qiáng)度等百余種特征維度組成的生物特征,具有穩(wěn)定性、可測量性、唯一性等特點(diǎn)。
人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個復(fù)雜的生理物理過程,發(fā)聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。
每個人的語音聲學(xué)特征既有相對穩(wěn)定性,又有變異性,不是一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。
盡管如此,由于每個人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。
聲紋不如圖像那樣直觀展現(xiàn),在實際分析中,可通過波形圖和語譜圖進(jìn)行展現(xiàn),如下所示:
二、聲紋識別的原理
人在講話時使用的發(fā)聲器官在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異,主要體現(xiàn)在如下方面:
共鳴方式特征:咽腔共鳴、鼻腔共鳴和口腔共鳴
嗓音純度特征:不同人的嗓音,純度一般是不一樣的,粗略地可分為高純度(明亮)、低純度(沙?。┖椭械燃兌热齻€等級
平均音高特征:平均音高的高低就是一般所說的嗓音是高亢還是低沉
音域特征:音域的高低就是通常所說的聲音飽滿還是干癟
不同人的聲音在語譜圖中共振峰的分布情況不同,聲紋識別正是通過比對兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個人,從而實現(xiàn)“聞聲識人”的功能。
三、聲紋識別算法的技術(shù)指標(biāo)
聲紋識別在算法層面可通過如下基本的技術(shù)指標(biāo)來判斷其性能,除此之外還有其它的一些指標(biāo),如:信道魯棒性、時變魯棒性、假冒攻擊魯棒性、群體普適性等指標(biāo),這部分后續(xù)于詳細(xì)展開講解。
錯誤拒絕率(False Rejection Rate,FRR):分類問題中,若兩個樣本為同類(同一個人),卻被系統(tǒng)誤認(rèn)為異類(非同一個人),則為錯誤拒絕案例。錯誤拒絕率為錯誤拒絕案例在所有同類匹配案例的比例。
錯誤接受率(False Acceptance Rate,FAR):分類問題中,若兩個樣本為異類(非同一個人),卻被系統(tǒng)誤認(rèn)為同類(同一個人),則為錯誤接受案例。錯誤接受率為錯誤接受案例在所有異類匹配案例的比例。
等錯誤率(Equal Error Rate,EER):調(diào)整閾值,使得誤拒絕率(False Rejection Rate,F(xiàn)RR)等于誤接受率(False Acceptance Rate,F(xiàn)AR),此時的FAR與FRR的值稱為等錯誤率。
準(zhǔn)確率(Accuracy,ACC):調(diào)整閾值,使得FAR+FRR最小,1減去這個值即為識別準(zhǔn)確率,即ACC=1-min(FAR+FRR)
速度:(提取速度:提取聲紋速度與音頻時長有關(guān)、驗證比對速度):Real Time Factor實時比(衡量提取時間跟音頻時長的關(guān)系,比如:1秒能夠處理80s的音頻,那么實時比就是1:80)。驗證比對速度是指平均每秒鐘能進(jìn)行的聲紋比對次數(shù)。
ROC曲線:描述FAR與FRR之間相互變化關(guān)系的曲線,X軸為FAR的值,Y軸為FRR的值。從左到右,當(dāng)閾值增長期間,每一個時刻都有一對FAR和FRR的值,將這些值在圖上描點(diǎn)連成一條曲線,就是ROC曲線。
閾值:在接受/拒絕二元分類系統(tǒng)中,通常會設(shè)定一個閾值,分?jǐn)?shù)超過該值時才做出接受決定。調(diào)節(jié)閾值可以根據(jù)業(yè)務(wù)需求平衡FAR與FRR。當(dāng)設(shè)定高閾值時,系統(tǒng)做出接受決定的得分要求較為嚴(yán)格,F(xiàn)AR降低,F(xiàn)RR升高;當(dāng)設(shè)定低閾值時,系統(tǒng)做出接受決定的得分要求較為寬松,F(xiàn)AR升高,F(xiàn)RR降低。在不同應(yīng)用場景下,調(diào)整不同的閾值,則可在安全性和方便性間平平衡,如下圖所示:
四、影響聲紋識別水平的因素
訓(xùn)練數(shù)據(jù)和算法是影響聲紋識別水平的兩個重要因素,在應(yīng)用落地過程中,還會受很多因素的影響。
聲源采樣率
人類語音的頻段集中于50Hz~8KHz之間,尤其在4KHz以下頻段
離散信號覆蓋頻段為信號采樣率的一半(奈奎斯特采樣定理)
采樣率越高,信息量越大
常用采樣率:8KHz(即0~4KHz頻段),16KHz(即0~8KHz頻段)
信噪比(SNR)
信噪比衡量一段音頻中語音信號與噪聲的能量比,即語音的干凈程度
15dB以上(基本干凈),6dB(嘈雜),0dB(非常吵)
信道
不同的采集設(shè)備,以及通信過程會引入不同的失真
聲紋識別算法與模型需要覆蓋盡可能多的信道
手機(jī)麥克風(fēng)、桌面麥克風(fēng)、固話、移動通信(CDMA,TD-LTE等)、微信……
語音時長
語音時長(包括注冊語音條數(shù))會影響聲紋識別的精度
有效語音時長越長,算法得到的數(shù)據(jù)越多,精度也會越高
短語音(1~3s)
長語音(20s+)
文本內(nèi)容
通俗地說,聲紋識別系統(tǒng)通過比對兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個人
固定文本:注冊與驗證內(nèi)容相同
半固定文本:內(nèi)容一樣但順序不同;文本屬于固定集合
自由文本
五、聲紋識別的應(yīng)用流程
聲紋識別(VPR),生物識別技術(shù)的一種,也稱為說話人識別,是從說話人發(fā)出的語音信號中提取聲紋信息,從應(yīng)用上看,可分為:
說話人辨認(rèn)(Speaker Identification):用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;
說話人確認(rèn)(Speaker Verification):用以確認(rèn)某段語音是否是指定的某個人所說的,是“一對一判別”問題。
聲紋識別在應(yīng)用中分注冊和驗證兩個主流程,根據(jù)不同的應(yīng)用中,部分處理流程會存在差異,一般的聲紋識別應(yīng)用流程如下圖所示:
六、聲紋識別的應(yīng)用場景
聲紋識別作為生物識別技術(shù)的一種,有非常多好的應(yīng)用場景,根據(jù)聲音的特性,下面從公共安全、金融、社保、智能硬件四個領(lǐng)域介紹聲紋識別的應(yīng)用。
1、安防
聲紋作為一種生物特征,最早在刑偵和鑒識領(lǐng)域成功應(yīng)用。
近年來,由于互聯(lián)網(wǎng)的發(fā)展,語音案件也呈現(xiàn)出井噴的趨勢,在這些語音案件中,聲紋識別成了唯一一種有效的技術(shù)偵破手段,通過的聲紋識別和聲紋大數(shù)據(jù)技術(shù)進(jìn)行重點(diǎn)人員監(jiān)管、反電信詐騙、反恐、刑事案件偵破、身份查詢與核驗,助力公安有效遏制與打擊犯罪,構(gòu)建和強(qiáng)化安全的社會公眾環(huán)境。
2、金融
針對銀行、互聯(lián)網(wǎng)金融等各類金融及服務(wù)機(jī)構(gòu),通過聲紋識別技術(shù),提供了用戶注冊、遠(yuǎn)程驗證、金融生物識別解決方案,大幅提高金融機(jī)構(gòu)的風(fēng)險防范系統(tǒng)安全性,強(qiáng)化風(fēng)控能力,增加用戶的安全性,防范身份欺詐。
另外在電話客服系統(tǒng)中,通過聲紋識別技術(shù),可實時識別出用戶的身份,從而提供個性化的客戶服務(wù)。
3、社保
我國針對離退休人員,每年至少需要進(jìn)行一次生存狀態(tài)驗證,并以此為依據(jù)進(jìn)行養(yǎng)老金的發(fā)放,目前可通過到指定社保大廳或自助終端進(jìn)行生存驗證,對于一些行動不便的老人家,這種方式也是非常不便利。聲紋識別技術(shù)在遠(yuǎn)程身份驗證中有著天然的優(yōu)勢,只需要一個電話(手機(jī)或固話都可以),即可完成生存驗證,為參保人員提供了便利,同時也為國家節(jié)省大量成本,避免養(yǎng)老金流失。
4、智能硬件
在智能硬件產(chǎn)品中,聲紋識別解決了當(dāng)前智能產(chǎn)品只能識別用戶所說的內(nèi)容,而不能區(qū)分說話人身份的問題,讓智能產(chǎn)品能夠區(qū)分不同的角色,實現(xiàn)“聽聲識人”。
讓系統(tǒng)針對性對每個人提供不同的內(nèi)容與服務(wù),讓人機(jī)交互更加簡單,讓用戶享受更輕松、更具個性化、更安全的產(chǎn)品體驗。
七、總結(jié)
聲紋識別作為最前沿的生物識別技術(shù),隨著技術(shù)的成熟,將會在越來越多的應(yīng)用場景下落地,我們相信在不久的將來,在第三代身份證上,聲紋將成為繼指紋、人像后又一個新增的公民身份ID。聲音將在我們未來的科技生活中扮演眼越來越重要的角色。