Please note that JavaScript and style sheet are used in this website,
Due to unadaptability of the style sheet with the browser used in your computer, pages may not look as original.
Even in such a case, however, the contents can be used safely.

  1. 首頁
  2. 公司導覽
  3. NEC的研究開發
  4. 在喧鬧中也能辨別聲音的Al NEC獨家「聲音狀況辨識技術」

NEC獨家「聲音狀況辨識技術」在喧鬧中也能辨別聲音的Al

國際聲音偵測大賽中,技壓世界各國研究機關,NEC技術勇奪第1名

提到公共設施或防範街頭尋釁滋事的監控解決方案,每個人最先想到的,應該就是技術開發先進、高度精準的監視攝影機。然而,攝影機本身有著受限於無法在昏暗、不明亮、遠處拍攝的明顯弱點。因此,近年來常將它的效用,聚焦在能從噪音中偵測目標音的聲學偵測技術。可藉由聲學感測器,高度精準地偵測出目標音,藉此掌握無法從影像瞭解的事件狀況。

 

2016年9月,IEEE(電機電子工程師學會)舉辦了國際聲音偵測大賽「DCASE2016」。本次是第2次舉辦,在「噪音中的日常聲音偵測」項目中,就由世界各國大學研究室為主而組成的10隊參賽,針對噪音之中的關門聲、紙張翻動聲等,以100分之1秒為單位的精確度,進行各隊偵測技術的比賽。NEC以獨創概念展開研究的「聲音狀況辨識技術」,在此項目勇奪第1名。透過本技術,在遠距離偵測聲音的表現也極為優異。根據NEC的驗證,傳統技術只能在4公尺處偵測,而NEC能夠在5倍距離的20公尺處進行偵測。這樣的偵測性能,能夠完全涵蓋一般監視攝影機之間的設置間隔,可說是邁向與監視攝影機合併使用的實際運用之路。


 

傳統技術面臨「學習」的課題,以「改變思維」挑戰

以往的偵測技術,是在特定環境下大量學習目標聲音,進而能夠偵測。偵測時,事先去除在該處學習到的環境噪音,來提升偵測的精準度。然而,在實際環境中,噪音隨著日期與時間會有大幅變動。此外,也會混入無法預期的噪音。

 

例如,在都會的喧鬧中,想偵測玻璃碎裂的聲音,傳統技術的作法,是讓系統學習在該環境下所設想到各種模式的玻璃碎裂聲音,因此,系統必須耗費數週的時間,來學習該環境下的噪音。然而,實際偵測時,若突然混入附近的施工聲音或街頭樂手的現場演奏聲等未知的噪音,就會大幅降低偵測的精準度。為了提高精準度,勢必得再學習未知的聲音。

 

近年來,研發出所謂Deep Learning(深度學習)的機械學習技術,一般做法上都是讓系統學習大量數據。然而,實際環境下的噪音,由於有著無限的變化,無論怎樣學也學不完。於是,NEC資料科學研究所便在2年前「改變思維」。

詳細的聲音狀況辨識技術

累積長年技術的成果,將目標聲音分解為特定構成聲音的「聲音資料庫」

NEC注意到,現實的聲音是基於物理現象而產生有限的構成聲音(頻率結構有固定模式)。例如「玻璃碎裂的聲音」,可分解成玻璃碎裂瞬間的碎裂聲音、碎片飛散所產生的共鳴聲音等,因此事先讓系統在無噪音的環境下學習這些構成聲音。如此一來,將現場所偵測的聲音分解成構成聲音之後,再重新組合成所謂「玻璃碎裂聲音」的目標聲音,就能正確辨識。此外,不僅是目標聲音,還可當場判斷出各個未知的噪音,因此可從現場偵測到的聲音中,計算噪音成分並自動排除。

 

附帶一提,要將聲音分解成有限的構成聲音、重構構成聲音再進行辨識,需要建立「聲音資料庫」。這個「聲音資料庫」的一部分,運用了NEC長年來累積、獨創的聲音訊號處理技術。

 

如上所述,用這樣嶄新的思維來著手研發的NEC「聲音狀況辨識技術」,與傳統技術相比,只需學習較為少量的數據,便可發揮出高度精準的偵測性能。因此在導入未知環境使用時更為簡便,是本技術最大的優勢。

從監控解決方案到支援瘦身的多樣可能性

NEC的「聲音狀況辨識技術」具有優異性能和靈活性,更能迅速邁向實際運用,未來在廣泛領域的應用也備受期待。

 

本技術預定從2017年起,逐步實際運用在監控解決方案。原先預期會實際運用的環境,是環境影響條件少、聲音不會逸散到四面八方的設施內,透過本技術,能夠將用途拓展到室外的大規模活動監視、鬧區或小巷道等都市監控。此外,將監視攝影機到各種感測器一併進行連動,可望提升監視精準度並更為可靠。

 

未來想必還會有更多的用法。舉例來說,若將感測器設置於獨居老人的家中,便可藉由聲音自動守護。一旦偵測到有人跌倒的聲音或難受的呻吟聲,便發出警報的用法。

 

此外,將本技術搭配振動感測器,設置於購物中心等場所,以特定的精準度來偵測男女、兒童等各種屬性的人流量。記錄一定時間的人流量後,便可用來預測每天購買行為的變化,在舉辦宣傳活動時偵測人流量變化,相信能夠作為具體量化廣告效果的工具。

 

在其他用途上,還能將辦公室的活絡程度、店內的客層與氣氛予以可視化。聲音感測器可辨別出笑聲與認真討論的聲音,藉此對應到辦公室內一整天工作流程。與高產能辦公室的工作流程相比,能有助於改善每天的工作。再者,生意興隆的居酒屋等處,嘈雜喧鬧而不過度的交流氣氛,透過聲音感測器化為學習模型,可用在提升一般店家營業額的對策。此外,若能看見家人的運動情景,用來支援更細膩的瘦身計畫,將不再是遙不可及的夢想。



研發進程(以安全防護為主)

研究者簡介

小松 達也 ( NEC資料科學研究所 偵測領域 )

©DAVID RODRIGUEZ, PHOTOGRAPHY 2010, GIBRALTAR

畢業於資訊科學研究科。碩士班時期就致力於研究聲音訊號處理與機械學習。進入NEC後,持續原本的研究,負責聲音相關領域。針對訊號處理技術與機械學習技術,研究如何高度整合這兩者,讓他得到極大的成就感。個人興趣是音樂創作,會自己用個人電腦創作音樂的DeskTop Music(DTM,數位音樂)。假日喜歡挑戰各種運動暢快流汗,最近正在與友人挑戰籃球。

近藤 玲史 ( NEC資料科學研究所 偵測領域 主任研究員 )

大學時代,在工學院從事聲音訊號處理的相關研究。進入NEC後,持續研究能產生真人聲調的文字語音合成技術,並負責NEC溝通型機器人「PaPeRo」的聲音部份。目前負責整合更為廣泛的聲音領域。20年來的個人興趣都是茶道。

Contact