Displaying present location in the site.

NEC語音辨識技術實現世界最高水準的精準度

NEC一直以來都致力於語音辨識技術的研究開發,甚至在2018年還參加第三方評價機關的測試。語音辨識目前達到什麼樣的水準?該如何運用?我們採訪了研發者詢問詳細情況。

在嚴苛的條件下實現95%的辨識精準度

NEC的語音辨識有什麼程度的精準度呢?

NEC以人臉辨識為首,擁有數個世界No.1的生物辨識技術,近年來著手研究開發的語音辨識也實現了高精準度。   
2018年,NEC參加第三方評價機關「美國國家標準暨技術研究院(NIST)」舉辦的技術評比測試,成功證明了其性能。測試課題在技術方面非常有挑戰性,例如使用高噪音背景的音源或線路音訊雜亂環境下認知電話交談中特定人物等,這是連人類都難以聽清楚等級的測試環境。而NEC的語音辨識系統在這種嚴苛的辨識條件下,還是成功地保持了約95%的精準度。另外,相較NIST公開的基準系統的89%之精準度,NEC創下了低於基準系統錯誤率一半以上的紀錄。這樣的說明,大家應該能夠理解我們的確成功證明了極高的技術能力。   
由於語音辨識方面的NIST評比具有強烈的學術性,因此不允許公開結果排名,不過本評比是再次證明我們的語音辨識具有能夠挑戰全球性比賽的高水準之機會。

 

生物認證研究所 主幹研究員 工學博士 越仲 孝文

 

不易受到環境變化影響的辨識精準度

-為什麼NEC的語音辨識精準度如此高呢?

對於環境變化有強大的對應力,這是最大的理由。我們的系統就是以有各種妨礙辨識的因素也能順利辨識為前提所設計。   
深度學習的機制是蒐集越多樣本資料越有益達到高精準度,然而NEC運用將一個音聲資料加入噪音或變化,製作另一個音聲資料之獨自的資料擴充技術。透過這種方式能獲得大量的說話者模式,進而大幅提升精準度。除了背景噪音明顯、以及混合複數交談者的聲音之外,能夠將人物A的聲音改變模擬另一人物A'的聲音,有效率的收集對學習有用的數據。事實上,導入此技術後,可以成功減少30%左右的辨識錯誤。   
另外,系統內崁入了將可讀取出個人特徵之獨特的人工神經網路(Neural Network)也是很重要的一環。在聲音的波形裡,每個人能能呈現個人的個性特徵的部分不同,NEC研發了獨家的「注意機構(Attention)」能夠自動讀取出現特徵的部分,傳達給辨識方的人工神經網路,本技術在20189月發表了論文,在學會也獲得了極高評價。透過活用這個關注機構,成功的將辨識所需要的發話時間縮短為原本的一半左右。

  •  

※K. Okabe et al., “Attentive Statistics Pooling for Deep Speaker Embedding,” INTERSPEECH 2018, Hyderabad, September, 2018

語音辨識的機制

唯一透過遠距通話亦可進行認證之生物辨識

-請問思考應用在哪些地方呢?

首先我們可以知道的是語音辨識與電話的組合性很好,只要使用電話,就算辨識對象在很遠的地方也能順利驗證。這是其他生物辨識沒有的優點。   
另外,相較之下發出聲音是對心理負擔較小的動作。由於不需要把手指放到機器上、把眼睛靠近鏡頭等積極的動作,就能輕鬆完成辨識這一點也是很重要的特色。 目前運用這個特點能構思到的解決方案大致分為兩方面:   
首先第一個是電子商務與網路銀行的運用。只要透過電話就能進行本人驗證或完成付款手續,能夠展開成提供具備絕佳安全性與便利性的服務。   
第二個是導入到客服中心。利用聲音辨識說話者,比對過去的通話記錄資料,應該能用以避免爭議以及提供更好的服務做出貢獻。