億歐專訪丨建十億級(jí)聲紋庫(kù)!快商通李稀敏分享聲紋如何“治騙”
人的聲音各有不同,我們用耳朵就能分辨出周圍人聲音的不同,但這樣的“不同”該如何呈現(xiàn)出來呢?第二次世界大戰(zhàn)后期,貝爾實(shí)驗(yàn)室研究和發(fā)明了“音響光譜圖像顯示器”,把聲波用光譜圖像加以顯示,這樣的圖像稱為語(yǔ)譜圖,后來又命名為聲紋。
通過可見的語(yǔ)譜圖,貝爾實(shí)驗(yàn)室實(shí)現(xiàn)了人工說話人識(shí)別。上世紀(jì)60年代,貝爾實(shí)驗(yàn)室又提出了基于模式匹配和概率統(tǒng)計(jì)方差分析的說話人識(shí)別方法,此后聲紋識(shí)別技術(shù)得到快速發(fā)展,從單模板模型發(fā)展到多模板模型,從模板模型發(fā)展到矢量量化模型、高斯混合模型、隱馬爾可夫模型,再到人工神經(jīng)網(wǎng)絡(luò)……
21世紀(jì)以來,“聲紋識(shí)別技術(shù)主要有3次突破。”李稀敏說。李稀敏是清華大學(xué)在職博士,人機(jī)對(duì)話與聲紋識(shí)別領(lǐng)域資深專家,同時(shí)他也是廈門快商通科技股份有限公司的AI研發(fā)中心總監(jiān)、快商通聲紋研發(fā)團(tuán)隊(duì)的核心成員。
聲紋識(shí)別技術(shù)的三個(gè)分水嶺
除了上述的身份外,李稀敏還是一名知乎“樓主”,他開通的 “聲紋識(shí)別的應(yīng)用實(shí)踐”專欄,詳細(xì)介紹了聲紋識(shí)別的技術(shù)、資源、應(yīng)用等,目前還在不斷更新中。在接受億歐采訪時(shí),為了便于理解,李稀敏將近年來聲紋識(shí)別技術(shù)的發(fā)展總結(jié)為3個(gè)分水嶺。
(近年聲紋識(shí)別技術(shù)發(fā)展的3個(gè)分水嶺)
第一個(gè)分水嶺是2000年。在2000年以前,進(jìn)行聲紋識(shí)別驗(yàn)證,主要是基于模板匹配,這種算法基于信號(hào)比對(duì),通常要求比對(duì)雙方的內(nèi)容相同,比如要驗(yàn)證說“床前明月光”的人是誰,那驗(yàn)證人也必須要說“床前明月光”才能驗(yàn)證,如果他說“疑似地上霜”的話,驗(yàn)證就不能完成。2000年以后,開始出現(xiàn)基于高斯混合模型的聲紋識(shí)別算法,高斯混合模型是典型基于統(tǒng)計(jì)學(xué)習(xí)理論的方法,該算法采用大量數(shù)據(jù)為每個(gè)說話人訓(xùn)練模型,使用高斯混合模型驗(yàn)證已經(jīng)與文本無關(guān)了,即要驗(yàn)證“床前明月光”的說話人時(shí),說“疑似地上霜”也能夠驗(yàn)證成功。之后產(chǎn)生的許多主流研究方法都是在高斯混合模型的基礎(chǔ)上改進(jìn)的,但高斯混合模型注冊(cè)語(yǔ)音的時(shí)間過長(zhǎng),無法滿足實(shí)際應(yīng)用場(chǎng)景的需求,因此需要新的技術(shù)來突破限制。
第二個(gè)分水嶺是2010年左右,這時(shí)候出現(xiàn)了iVector/PLDA算法。iVector最大的亮點(diǎn)在于,把語(yǔ)音映射到了一個(gè)固定的且低維的向量上,這意味這所有機(jī)器學(xué)習(xí)的算法都可以用來解決聲紋識(shí)別的問題了,因此這是一個(gè)巨大的進(jìn)步。PLDA是一種信道補(bǔ)償算法,因?yàn)樵趇Vector中,既包含說話人的信息,也包含信道信息,而我們只關(guān)心說話人的信息,所以才做信道補(bǔ)償,目前PLDA是最好的信道補(bǔ)償算法,但噪聲對(duì)結(jié)果依然有很大的影響。
第三分水嶺是在2011年,在第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議上,鄧力分享了他在微軟DNN-based speech recognition的研究結(jié)果,將識(shí)別率提升了30%,這將聲紋識(shí)別的準(zhǔn)確率一下子提升了一個(gè)層次。DNN能從大量樣本中學(xué)習(xí)到高度抽象的說話人特征,并對(duì)噪聲有很強(qiáng)的免疫力,至此深度學(xué)習(xí)被引入業(yè)界,國(guó)內(nèi)對(duì)聲紋識(shí)別技術(shù)的關(guān)注點(diǎn)也放到了深度學(xué)習(xí)上。
聲紋識(shí)別在公共安全領(lǐng)域大有用途
將深度學(xué)習(xí)引入聲紋識(shí)別領(lǐng)域后,經(jīng)過了幾年的發(fā)展,目前聲紋識(shí)別技術(shù)已經(jīng)相對(duì)完善,那么聲紋究竟可以怎么用呢?相對(duì)于其他身份認(rèn)證方式,聲紋識(shí)別具有易采集、非接觸、高可靠等特點(diǎn),操作簡(jiǎn)單,且驗(yàn)證內(nèi)容可變化,因此在公共安全領(lǐng)域大有用途。
“最重要的一個(gè)應(yīng)用場(chǎng)景是電信反欺詐。”李稀敏說,電信詐騙是通過電話、網(wǎng)絡(luò)或短信的方式編造虛假信息,設(shè)置騙局,是一種非接觸性的詐騙。根據(jù)相關(guān)統(tǒng)計(jì),超過50%的電信詐騙是通過打電話進(jìn)行的,“所以電話是重災(zāi)區(qū),”李稀敏說:“而聲紋識(shí)別也是一種非接觸式的方法,可以直接在電話里就識(shí)別出說話人的身份,有效減少電信詐騙的發(fā)生。”目前快商通聲紋已經(jīng)與公安局、電信公司展開合作,建立了動(dòng)態(tài)聲紋數(shù)據(jù)庫(kù),支持十億級(jí)聲紋庫(kù)實(shí)時(shí)檢索,能夠快速進(jìn)行1:N大規(guī)模檢索。“十億差不多就是中國(guó)網(wǎng)民的數(shù)量,目前能支持這個(gè)級(jí)別的聲紋實(shí)時(shí)檢索的,我們是業(yè)內(nèi)首家。”李稀敏告訴億歐。
在公共安全領(lǐng)域,除了電信反欺詐外,司法社區(qū)矯正也是聲紋識(shí)別的一個(gè)典型應(yīng)用場(chǎng)景。社區(qū)矯正是指針對(duì)判處管制、宣告緩刑、裁定假釋、暫予監(jiān)外執(zhí)行這四類犯罪行為較輕的對(duì)象所實(shí)施的非監(jiān)禁性矯正處罰。盡管我國(guó)從2009年開始在社區(qū)矯正中啟用信息化管理手段,但實(shí)際操作中仍存在脫管、漏管現(xiàn)象,“采用聲紋對(duì)矯正人員身份進(jìn)行驗(yàn)證,可以有效解決‘人機(jī)分離’的問題。”李稀敏說,而且只需通過電話即可完成驗(yàn)證,這極大地降低了司法所的工作強(qiáng)度,對(duì)矯正對(duì)象而言,這樣的方式也更能體現(xiàn)出對(duì)人格的尊重,有助于其順利回歸社會(huì)。
解決借貸黑中介的良方
除了公共安全領(lǐng)域外,金融領(lǐng)域也對(duì)聲紋識(shí)別有著強(qiáng)烈的需求,“特別是在金融借貸方面。”李稀敏介紹道,在消費(fèi)金融行業(yè),大部分壞賬來源于黑中介主導(dǎo)的產(chǎn)業(yè)鏈?zhǔn)皆p騙,黑中介利用社交媒體、路邊小廣告等騙取借款人信任,以協(xié)助辦理貸款為名,提供全套虛假貸款資質(zhì)證明材料。因此如何在審查環(huán)節(jié)及時(shí)鑒別出黑中介,成為降低消費(fèi)金融公司壞賬率的關(guān)鍵因素,“聲紋識(shí)別就是一種很好的辦法。”
日前快商通聲紋與國(guó)內(nèi)某民營(yíng)金融集團(tuán)上線了聲紋信貸反欺詐系統(tǒng),目的就在于用聲紋識(shí)別出黑中介,降低金融公司損失,目前快商通已取得聲紋反欺詐在金融領(lǐng)域應(yīng)用的專利證書。
李稀敏介紹道,當(dāng)貸款訂單進(jìn)入電核環(huán)節(jié),系統(tǒng)會(huì)自動(dòng)提取聲紋并與系統(tǒng)黑名單做對(duì)比,同時(shí)與最近的或同區(qū)域訂單的聲紋做交叉對(duì)比,如果命中黑名單,或發(fā)現(xiàn)重復(fù)的聯(lián)系人信息,系統(tǒng)則會(huì)提示該人有重大欺詐嫌疑。
(快商通聲紋信貸反欺詐系統(tǒng)架構(gòu))
“當(dāng)時(shí)在打造這個(gè)系統(tǒng)的時(shí)候,如何在誤報(bào)和漏報(bào)之間找到平衡點(diǎn),是一個(gè)難題。”李稀敏說,誤報(bào)和漏報(bào)就像是一個(gè)蹺蹺板的兩端,如果漏報(bào)率高了,誤報(bào)率就會(huì)降低,反之亦然。“問題就在于,如果漏報(bào)率太高了,抓不住黑中介,那么這個(gè)系統(tǒng)就失去意義了;但如果誤報(bào)率太高,那么這個(gè)系統(tǒng)的報(bào)警系統(tǒng)會(huì)響個(gè)不停,這也是不現(xiàn)實(shí)的。”最終,快商通聲紋團(tuán)隊(duì)根據(jù)實(shí)際應(yīng)用需要,將該系統(tǒng)的誤報(bào)率降到萬分之五以下,漏報(bào)率控制在20%左右。
快商通聲紋業(yè)務(wù)將迎來井噴式增長(zhǎng)
雖然目前聲紋識(shí)別已經(jīng)能在多個(gè)領(lǐng)域落地應(yīng)用,但聲紋識(shí)別技術(shù)仍面臨著許多挑戰(zhàn)。其中一個(gè)比較常見挑戰(zhàn)是跨信道的識(shí)別,李稀敏說,不同的設(shè)備、傳輸通道會(huì)造成信道的不同,不同的信道有不同的噪音,編碼方式也存在差異,因此給聲紋識(shí)別的算法加大了難度。除此之外,還有語(yǔ)音合成、口音變化等問題也會(huì)給聲紋識(shí)別帶來挑戰(zhàn)。
(快商通聲紋識(shí)別結(jié)構(gòu)圖)
“所以我們也一直在想辦法提升自己的技術(shù)水平。”而要想有技術(shù)的成果,人才是關(guān)鍵。李稀敏告訴億歐,最近一位全球語(yǔ)音領(lǐng)域的權(quán)威專家加入了快商通聲紋團(tuán)隊(duì),擔(dān)任公司首席科學(xué)家,負(fù)責(zé)人才培養(yǎng)及公司戰(zhàn)略布局指導(dǎo)等工作,這位專家曾擔(dān)任過全球自然語(yǔ)言處理和計(jì)算機(jī)語(yǔ)言學(xué)領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議ACL和語(yǔ)音通信領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議InterSpeech的大會(huì)主席。
快商通聲紋研發(fā)團(tuán)隊(duì)核心成員100%具有國(guó)內(nèi)外名校博士學(xué)位,目前通過快商通聲紋引擎建立的聲紋模型數(shù)已超過五千萬,在穩(wěn)定性、識(shí)別率和處理速度上處于業(yè)界領(lǐng)先位置。
“今年是投資聲紋識(shí)別的元年。”李稀敏認(rèn)為,國(guó)內(nèi)的聲紋識(shí)別還處于起步階段,隨著技術(shù)的成熟,未來聲紋識(shí)別將在越來越多的領(lǐng)域得到應(yīng)用,“我預(yù)計(jì)今年快商通聲紋的業(yè)務(wù)會(huì)有井噴式增長(zhǎng)。”李稀敏透露,今年快商通聲紋將繼續(xù)深耕公共安全和金融安全兩大重點(diǎn)領(lǐng)域,進(jìn)一步推進(jìn)聲紋在這些領(lǐng)域的應(yīng)用。
“當(dāng)然,我們AI研發(fā)中心也不是只做聲紋。”李稀敏告訴億歐,快商通正在籌備一個(gè)開放平臺(tái)。“現(xiàn)在用戶更希望企業(yè)能提供一籃子的解決方案,不想把服務(wù)器放在自己那里,而是在需要的時(shí)候,調(diào)用云上的接口。”李稀敏告訴億歐,目前該平臺(tái)只是各個(gè)研發(fā)組算法的集成,尚未完全開放,但未來快商通會(huì)看準(zhǔn)需求爆發(fā)的時(shí)機(jī),真正開放這個(gè)平臺(tái)。而未來依托這個(gè)大的開放平臺(tái),快商通的聲紋業(yè)務(wù)也許會(huì)有更大的發(fā)展空間。
(內(nèi)容來源:億歐,唐鈺婷)


