Displaying present location in the site.

「特徵量自動設計技術」

將巨量資料預測分析時間縮短1/3

運用巨量資料的預測分析,仰賴專家知識與人為操作

要根據企業累積的巨量資料(Big Data)進行銷售額或需求之類的精準預測,必須選擇適合資料的加工處理及分析手法。具體來說,下述兩項流程特別重要:

①設計特徵量:基於實際作業的知識與經驗,將原始資料轉換成「有可能影響預測的資料(以下簡稱「特徵量」)」時,針對處理步驟進行設計。

②設計模型:考量到夾雜於巨量資料當中的複數規則性,預測其改變要素進行「狀況分類」,同時選擇出能巧妙展現個別規則性的預測模型。

 

以便利商店為例,光是便當、熟食等生鮮品項就有數百種,而且在全國營運的上萬家店舖,位置環境皆有不同。要從總部累積的龐大資料,進行高精準度預測分析的話,資料分析技術人員必須重複特徵量的設計與實驗,且需要耗費大量時間人為操作來找出每間店鋪/每樣商品所具有的複數規則性。

 

仰賴專家知識與人為操作的預測分析,為了提升精準度、縮短分析時間,NEC在2011年啟動研究專案,首先對於②「設計模型」方面,研發「異種混合學習技術」並於2014年發布,這項技術能夠將混雜在巨量資料中的複數規則性,自動針對不同狀況分類,並自動建立個別預測公式。由人為操作來搜尋各式各樣條件的組合有其極限,轉為自動化搜尋之後,便能高速且精準地分析大規模資料。

本次針對預測分析不可或缺的另一項流程「①設計特徴量」,成功研發出自動化的技術。

 

將「特徵量」的設計、評估等一連串流程成功自動化

例如,眾所皆知啤酒、冰淇淋等商品的銷售量與氣溫資料有關。氣溫資料在預測這類商品的銷售額時非常重要,但只把氣溫資料與銷售實績串接起來,並無法達到高度精準的預測。

 

舉例來說,原始資料(raw data)包含量測時的差異,資料可能無法完整反映出氣溫影響。此時如果求出氣溫資料的「移動平均*」,排除差異影響並擷取出特徵量,便可提高精準度。

 

此外,銷售與氣溫之間往往不見得是單純的連帶關係。氣溫超過特定溫度時,會急速影響銷售額,然而,除此之外並不會產生影響,關係頗為複雜。像這樣的情況,如果針對超過特定氣溫以上的資料,以分段線性函數局部放大並擷取為特徵量,就能提高預估精準度。

 

而這樣的特徵量,原本是基於事業相關知識與資料分析的知識,由專家不斷嘗試錯誤後設計出來的。這項作業被稱為「設計特徵量」,必須同時具備專業知識以及大量時間。本次研發的「特徵量自動設計技術」,就是將特徵量的設計、評估流程予以自動化。*將「時間序列」型的連續資料計算出平均的方法

 

專家花費3個月得出的大樓耗電量預估,僅1個月便完成分析

NEC運用此項特徵量自動設計技術進行了實證實驗:分析、預測3座大樓的電力需求。實驗結果是僅需1個月的時間,便完成專家需要3個月得出的耗電量預估,而且精準度媲美專家水準。

 

本項技術搭配「異種混合機械學習」的解決方案實際導入後,像是對於需要短時間分析大量資料的零售企業,針對個別商品預測分析時,能比傳統方式更快、更即時。

 

NEC針對巨量資料相關技術的下一個目標,立下如此的願景:由預測分析自動得出「判斷」,協助提供訂購數量、人員部署等相關事項的最佳規劃。如此不僅企業,也將為智慧用水、智慧交通等社會基礎設施領域有所貢獻。

今後,NEC的目標是建立起一條龍式預測分析解決方案的體系,用更短時間處理大量的原始資料,轉換運用在最優化引擎,為客戶提供「高速」、「高精準度」的價值。

 

研發出的演算法,能夠高速搜尋資料轉換處理的組合

有利於大量資料預測分析的「特徵量」,為了能夠在短時間內就自動計算出來,本次NEC新研發的演算法,能夠在龐大資料轉換處理的組合中,迅速找出關聯性最高的轉換組合。

 

為了讓演算更為迅速,在檢驗複數組合與樣式(Pattern)時,採取的做法是:將不斷進行的運算處理效能提升到最大,盡可能減少重新驗算的步驟。不僅如此,NEC研發的方式能夠在搜尋之前預測出「搜尋範圍內產生特徵量的正確性」,預先排除無謂搜尋,是本技術能夠大幅減少預測分析時間的重要原因。

 

此外,研發本項技術時,要產生特徵量所必備的「標準化」、「移動平均」等,將這些由NEC資料分析技術人員豐富經驗培育的各種「資料轉換處理」化為程式庫。搭配這個程式庫,多樣化的特徵量設計能夠更加輕鬆。

 

深度學習(Deep Learning)是近年來針對巨量資料預測分析頗受矚目的技術。然而,深度學習的預估精準度雖高,但無法明確顯示出預測的「根據」,呈現黑箱(Black Box)狀態。舉例而言,即使預測出「明天的飯糰銷售會加倍」,卻無法客觀說明其理由。另一方面,NEC研發的本項技術,只要讀取函數列,就能輕鬆瞭解進行過怎樣的演算處理、以何種規則性求得的預測。換言之,這樣的分析手法不僅預測精準度高,也能對企業顧客說明「根據」,是本技術的一大特色。(日文版原文發表日期:2015年11月)

將NEC資料科學家培育的各種「資料轉換處理」化為程式庫

研究者簡介

楠村幸貴 ( NEC資訊及知識研究所 北美分室 研究員 工學博士 )

學生時期主修電腦科學,從事針對Web資料的文字探勘等研究。進入公司後,分發至關西研究所,長年以來不斷從事文字探勘技術以及預測分析的研究。2014年起,轉調至NEC資訊及知識研究所北美分室。目前負責多項海外專案,包括:自來水基礎建設漏水檢測專案、停電預測專案等。假日時,有許多品酒的機會。「在美國喝葡萄酒,便宜又好喝。」經常與英國籍的妻子一起去愛爾蘭式酒吧。

藤卷遼平( NEC資訊及知識研究所 北美分室 首席研究員 工學博士 )

大學時主修航太工程,碩士班時期致力研究於運用機械學習/資料探勘技術偵測人工衛星異常或故障。進入公司後,分發至資訊及知識研究所,包括演算法、機械學習/資料探勘原理研發等,主要研發範圍是巨量資料分析必備的解決方案與軟體等。2010年起調任美國。與國外客戶共同研發解決方案、軟體。「國外的客戶與日本客戶相比,懂技術的人很多。」興趣是旅行。由於工作關係也有許多機會到北美以外地區,個人旅行的頻率約為每年一次。冬天的時候喜歡玩滑雪板。