快商通首席科學家李海洲:語音識別的后半段路,從語言處理走向語言理解
在近二十年來, 尤其是引入深度學習以后, 語音識別取得了一系列重大突破, 并一步步走向市場并搭載到終端產(chǎn)品中。然而在用戶體驗上, 魯棒性可以算得上這些產(chǎn)品最大的槽點之一, 這也意味著語音識別的魯棒性問題已經(jīng)成為了該領域研究亟待解決的難點。
IEEE Fellow、快商通首席科學家李海洲院士, 根據(jù)其在語音識別和聲紋識別領域多年來的研究成果和經(jīng)驗積累, 總結出提升語音識別魯棒性的三種途徑。李海洲教授認為:如果希望技術有更近一層的突破, 我們需要將精力放于語音識別的后半段路——從語音語言處理走向語音語言理解。

分享一:提高語音識別魯棒性的三種途徑
近二十年, 語音識別技術取得顯著進步, 但識別的魯棒性問題一直阻礙著語音技術的進一步發(fā)展。對于語音識別和聲紋識別來說, 該如何提升影響準確率的系統(tǒng)魯棒性? 快商通首席科學家李海洲教授表示, 想要從根本上提升識別準確率, 可以從三個方面考慮。
首先, 專用系統(tǒng)轉(zhuǎn)換為通用系統(tǒng)。
語音識別從實驗室走向應用, 環(huán)境適應性一直是不容忽視的問題。實驗室中訓練良好的引擎, 一旦處于負責的噪聲環(huán)境, 其識別準確率便會急劇下降。這些噪聲主要來自于信道偏差, 環(huán)境噪音, 被污染的測試數(shù)據(jù)與訓練數(shù)據(jù)的不匹配等。
因此, 想要提高識別準確率, 需將目前針對某單一環(huán)境的專用系統(tǒng)升級為通用系統(tǒng), 提高識別引擎的自我學習能力, 才能使其適應不同環(huán)境的差異性。
第二,擴展獲取語音信息的渠道。
假設三種場景:面對面交流、視頻交流、電話語音交流, 人在哪種情況下能聽得最清楚? 毫無疑問是面對面交流, 這種場景下溝通, 人們可以看到對方的表情、手勢, 而這些信息也將輔助聽覺獲取更多的信息。
人類從單一的渠道獲取信息尚且會有偏差的可能, 機器亦然。李教授認為, 未來將會形成語音、視覺等多渠道的技術手段, 來幫助語音識別和聲紋識別進行準確率的提升。
第三,從語音語言處理走向語音語言理解。
人們普遍認為, 語音識別是將聲音變?yōu)槲淖帧5诳焐掏ㄊ紫茖W家李海洲教授的理解里, 語音識別的初衷是讓機器聽懂人類說話, 并不一定需要將聲音轉(zhuǎn)化為文字。就像人與人之間的交流, 并不需要先將對方說的語音轉(zhuǎn)換成文字。
機器無法直接聽懂人類的語言, 所以需要將語音轉(zhuǎn)為文字來輔助, 但如果希望技術有更近一層的突破, 我們需要將精力放于語音識別的后半段路——從語音語言處理走向語音語言理解。
分享二:中國人工智能應用落地的三大優(yōu)勢
第四次工業(yè)革命即將來臨, 世界各國已經(jīng)認識到人工智能是未來國家之間競爭的關鍵賽場, 因而紛紛爭奪這一輪科技革命的制高點。對于中國而言, 人工智能的發(fā)展是一個歷史性的戰(zhàn)略機遇, 政府創(chuàng)造土壤, 企業(yè)奮起發(fā)力, 中國在 AI 領域的實力與發(fā)展優(yōu)勢不斷被世界認可。
基于多年海外經(jīng)歷培養(yǎng)出的國際化視角, 結合專業(yè)判斷能力, 快商通首席科學家李海洲教授總結出中國人工智能應用落地的三大優(yōu)勢。
政府推動:在我國, 人工智能連續(xù)三年被寫入總理政府工作報告, 并成為促進新興產(chǎn)業(yè)加快發(fā)展的新動能。政府的推動與總體規(guī)劃, 完善了人工智能基礎設施的建設, 并使得各科技企業(yè)的技術能夠穩(wěn)步落地。
數(shù)據(jù)優(yōu)勢:人工智能的發(fā)展需要與深度學習和大數(shù)據(jù)緊密結合, 中國在數(shù)據(jù)資源這一方面的優(yōu)勢, 是毋庸置疑的。僅僅在日常生活中, 中國近 14 億的人口就能產(chǎn)生比全球其他國家更多的數(shù)據(jù)。這讓深度學習有一個用武之地。
企業(yè)環(huán)境:自 2012 年深度學習取得重大突破, 中國人工智能企業(yè)如雨后春筍般生長, 激烈的競爭環(huán)境下, 企業(yè)家們必須兼具創(chuàng)新與奮斗精神, 才能在大浪淘沙中適者生存。再這樣的情況下, 中國人工智能技術的創(chuàng)業(yè)環(huán)境積極向上, 為優(yōu)質(zhì)的技術和企業(yè)家創(chuàng)造了健康的創(chuàng)業(yè)土壤。
