Displaying present location in the site.

NEC獨家「聲音狀況辨識技術」

在喧鬧中也能辨別聲音的Al

國際聲音偵測大賽中,技壓世界各國研究機關,NEC技術勇奪第1名

提到公共設施或防範街頭尋釁滋事的監控解決方案,每個人最先想到的,應該就是技術開發先進、高度精準的監視攝影機。然而,攝影機本身有著受限於無法在昏暗、不明亮、遠處拍攝的明顯弱點。因此,近年來常將它的效用,聚焦在能從噪音中偵測目標音的聲學偵測技術。可藉由聲學感測器,高度精準地偵測出目標音,藉此掌握無法從影像瞭解的事件狀況。

 

2016年9月,IEEE(電機電子工程師學會)舉辦了國際聲音偵測大賽「DCASE2016」。本次是第2次舉辦,在「噪音中的日常聲音偵測」項目中,就由世界各國大學研究室為主而組成的10隊參賽,針對噪音之中的關門聲、紙張翻動聲等,以100分之1秒為單位的精確度,進行各隊偵測技術的比賽。NEC以獨創概念展開研究的「聲音狀況辨識技術」,在此項目勇奪第1名。透過本技術,在遠距離偵測聲音的表現也極為優異。根據NEC的驗證,傳統技術只能在4公尺處偵測,而NEC能夠在5倍距離的20公尺處進行偵測。這樣的偵測性能,能夠完全涵蓋一般監視攝影機之間的設置間隔,可說是邁向與監視攝影機合併使用的實際運用之路。


 

傳統技術面臨「學習」的課題,以「改變思維」挑戰

以往的偵測技術,是在特定環境下大量學習目標聲音,進而能夠偵測。偵測時,事先去除在該處學習到的環境噪音,來提升偵測的精準度。然而,在實際環境中,噪音隨著日期與時間會有大幅變動。此外,也會混入無法預期的噪音。

 

例如,在都會的喧鬧中,想偵測玻璃碎裂的聲音,傳統技術的作法,是讓系統學習在該環境下所設想到各種模式的玻璃碎裂聲音,因此,系統必須耗費數週的時間,來學習該環境下的噪音。然而,實際偵測時,若突然混入附近的施工聲音或街頭樂手的現場演奏聲等未知的噪音,就會大幅降低偵測的精準度。為了提高精準度,勢必得再學習未知的聲音。

 

近年來,研發出所謂Deep Learning(深度學習)的機械學習技術,一般做法上都是讓系統學習大量數據。然而,實際環境下的噪音,由於有著無限的變化,無論怎樣學也學不完。於是,NEC資料科學研究所便在2年前「改變思維」。

詳細的聲音狀況辨識技術

累積長年技術的成果,將目標聲音分解為特定構成聲音的「聲音資料庫」

NEC注意到,現實的聲音是基於物理現象而產生有限的構成聲音(頻率結構有固定模式)。例如「玻璃碎裂的聲音」,可分解成玻璃碎裂瞬間的碎裂聲音、碎片飛散所產生的共鳴聲音等,因此事先讓系統在無噪音的環境下學習這些構成聲音。如此一來,將現場所偵測的聲音分解成構成聲音之後,再重新組合成所謂「玻璃碎裂聲音」的目標聲音,就能正確辨識。此外,不僅是目標聲音,還可當場判斷出各個未知的噪音,因此可從現場偵測到的聲音中,計算噪音成分並自動排除。

 

附帶一提,要將聲音分解成有限的構成聲音、重構構成聲音再進行辨識,需要建立「聲音資料庫」。這個「聲音資料庫」的一部分,運用了NEC長年來累積、獨創的聲音訊號處理技術。

 

如上所述,用這樣嶄新的思維來著手研發的NEC「聲音狀況辨識技術」,與傳統技術相比,只需學習較為少量的數據,便可發揮出高度精準的偵測性能。因此在導入未知環境使用時更為簡便,是本技術最大的優勢。

從監控解決方案到支援瘦身的多樣可能性

NEC的「聲音狀況辨識技術」具有優異性能和靈活性,更能迅速邁向實際運用,未來在廣泛領域的應用也備受期待。

 

本技術預定逐步實際運用在監控解決方案。原先預期會實際運用的環境,是環境影響條件少、聲音不會逸散到四面八方的設施內,透過本技術,能夠將用途拓展到室外的大規模活動監視、鬧區或小巷道等都市監控。此外,將監視攝影機到各種感測器一併進行連動,可望提升監視精準度並更為可靠。

 

未來想必還會有更多的用法。舉例來說,若將感測器設置於獨居老人的家中,便可藉由聲音自動守護。一旦偵測到有人跌倒的聲音或難受的呻吟聲,便發出警報的用法。

 

此外,將本技術搭配振動感測器,設置於購物中心等場所,以特定的精準度來偵測男女、兒童等各種屬性的人流量。記錄一定時間的人流量後,便可用來預測每天購買行為的變化,在舉辦宣傳活動時偵測人流量變化,相信能夠作為具體量化廣告效果的工具。

 

在其他用途上,還能將辦公室的活絡程度、店內的客層與氣氛予以可視化。聲音感測器可辨別出笑聲與認真討論的聲音,藉此對應到辦公室內一整天工作流程。與高產能辦公室的工作流程相比,能有助於改善每天的工作。再者,生意興隆的居酒屋等處,嘈雜喧鬧而不過度的交流氣氛,透過聲音感測器化為學習模型,可用在提升一般店家營業額的對策。此外,若能看見家人的運動情景,用來支援更細膩的瘦身計畫,將不再是遙不可及的夢想。



研發進程(以安全防護為主)

研究者簡介

小松 達也 ( NEC資料科學研究所 偵測領域 )

©DAVID RODRIGUEZ, PHOTOGRAPHY 2010, GIBRALTAR

畢業於資訊科學研究科。碩士班時期就致力於研究聲音訊號處理與機械學習。進入NEC後,持續原本的研究,負責聲音相關領域。針對訊號處理技術與機械學習技術,研究如何高度整合這兩者,讓他得到極大的成就感。個人興趣是音樂創作,會自己用個人電腦創作音樂的DeskTop Music(DTM,數位音樂)。假日喜歡挑戰各種運動暢快流汗,最近正在與友人挑戰籃球。

近藤 玲史 ( NEC資料科學研究所 偵測領域 主任研究員 )

大學時代,在工學院從事聲音訊號處理的相關研究。進入NEC後,持續研究能產生真人聲調的文字語音合成技術,並負責NEC溝通型機器人「PaPeRo」的聲音部份。目前負責整合更為廣泛的聲音領域。20年來的個人興趣都是茶道。