快商通首席科學家李海洲:語音識別的后半段路,從語言處理走向語言理解

2019-09-27 09:47 未知閱讀：

在近二十年來, 尤其是引入深度學習以后, 語音識別取得了一系列重大突破, 并一步步走向市場并搭載到終端產品中。然而在用戶體驗上, 魯棒性可以算得上這些產品最大的槽點之一, 這也意味著語音識別的魯棒性問題已經成為了該領域研究亟待解決的難點。

IEEE Fellow、快商通首席科學家李海洲院士, 根據其在語音識別和聲紋識別領域多年來的研究成果和經驗積累, 總結出提升語音識別魯棒性的三種途徑。李海洲教授認為:如果希望技術有更近一層的突破, 我們需要將精力放于語音識別的后半段路——從語音語言處理走向語音語言理解。

分享一:提高語音識別魯棒性的三種途徑

近二十年, 語音識別技術取得顯著進步, 但識別的魯棒性問題一直阻礙著語音技術的進一步發展。對于語音識別和聲紋識別來說, 該如何提升影響準確率的系統魯棒性? 快商通首席科學家李海洲教授表示, 想要從根本上提升識別準確率, 可以從三個方面考慮。

首先, 專用系統轉換為通用系統。

語音識別從實驗室走向應用, 環境適應性一直是不容忽視的問題。實驗室中訓練良好的引擎, 一旦處于負責的噪聲環境, 其識別準確率便會急劇下降。這些噪聲主要來自于信道偏差, 環境噪音, 被污染的測試數據與訓練數據的不匹配等。

因此, 想要提高識別準確率, 需將目前針對某單一環境的專用系統升級為通用系統, 提高識別引擎的自我學習能力, 才能使其適應不同環境的差異性。

第二，擴展獲取語音信息的渠道。

假設三種場景:面對面交流、視頻交流、電話語音交流, 人在哪種情況下能聽得最清楚? 毫無疑問是面對面交流, 這種場景下溝通, 人們可以看到對方的表情、手勢, 而這些信息也將輔助聽覺獲取更多的信息。

人類從單一的渠道獲取信息尚且會有偏差的可能, 機器亦然。李教授認為, 未來將會形成語音、視覺等多渠道的技術手段, 來幫助語音識別和聲紋識別進行準確率的提升。

第三，從語音語言處理走向語音語言理解。

人們普遍認為, 語音識別是將聲音變為文字。但在快商通首席科學家李海洲教授的理解里, 語音識別的初衷是讓機器聽懂人類說話, 并不一定需要將聲音轉化為文字。就像人與人之間的交流, 并不需要先將對方說的語音轉換成文字。

機器無法直接聽懂人類的語言, 所以需要將語音轉為文字來輔助, 但如果希望技術有更近一層的突破, 我們需要將精力放于語音識別的后半段路——從語音語言處理走向語音語言理解。

分享二:中國人工智能應用落地的三大優勢

第四次工業革命即將來臨, 世界各國已經認識到人工智能是未來國家之間競爭的關鍵賽場, 因而紛紛爭奪這一輪科技革命的制高點。對于中國而言, 人工智能的發展是一個歷史性的戰略機遇, 政府創造土壤, 企業奮起發力, 中國在 AI 領域的實力與發展優勢不斷被世界認可。

基于多年海外經歷培養出的國際化視角, 結合專業判斷能力, 快商通首席科學家李海洲教授總結出中國人工智能應用落地的三大優勢。

政府推動:在我國, 人工智能連續三年被寫入總理政府工作報告, 并成為促進新興產業加快發展的新動能。政府的推動與總體規劃, 完善了人工智能基礎設施的建設, 并使得各科技企業的技術能夠穩步落地。

數據優勢:人工智能的發展需要與深度學習和大數據緊密結合, 中國在數據資源這一方面的優勢, 是毋庸置疑的。僅僅在日常生活中, 中國近 14 億的人口就能產生比全球其他國家更多的數據。這讓深度學習有一個用武之地。

企業環境:自 2012 年深度學習取得重大突破, 中國人工智能企業如雨后春筍般生長, 激烈的競爭環境下, 企業家們必須兼具創新與奮斗精神, 才能在大浪淘沙中適者生存。再這樣的情況下, 中國人工智能技術的創業環境積極向上, 為優質的技術和企業家創造了健康的創業土壤。

本文所有權歸屬于快商通所有，未經本公司許可，不得轉載、引用、摘錄、摘編、復制、下載、打印、傳播，否則快商通將依法追究相關行為人的法律責任。

国产99视频精品免费视频36_激情视频在线观看一区二区三区_www亚洲国产_性欧美激情精品