Please note that JavaScript and style sheet are used in this website,
Due to unadaptability of the style sheet with the browser used in your computer, pages may not look as original.
Even in such a case, however, the contents can be used safely.

「特徵量自動設計技術」將巨量資料預測分析時間縮短1/3

運用巨量資料的預測分析,仰賴專家知識與人為操作

要根據企業累積的巨量資料(Big Data)進行銷售額或需求之類的精準預測,必須選擇適合資料的加工處理及分析手法。具體來說,下述兩項流程特別重要:

①設計特徵量:基於實際作業的知識與經驗,將原始資料轉換成「有可能影響預測的資料(以下簡稱「特徵量」)」時,針對處理步驟進行設計。

②設計模型:考量到夾雜於巨量資料當中的複數規則性,預測其改變要素進行「狀況分類」,同時選擇出能巧妙展現個別規則性的預測模型。

 

以便利商店為例,光是便當、熟食等生鮮品項就有數百種,而且在全國營運的上萬家店舖,位置環境皆有不同。要從總部累積的龐大資料,進行高精準度預測分析的話,資料分析技術人員必須重複特徵量的設計與實驗,且需要耗費大量時間人為操作來找出每間店鋪/每樣商品所具有的複數規則性。

 

仰賴專家知識與人為操作的預測分析,為了提升精準度、縮短分析時間,NEC在2011年啟動研究專案,首先對於②「設計模型」方面,研發「異種混合學習技術」並於2014年發布,這項技術能夠將混雜在巨量資料中的複數規則性,自動針對不同狀況分類,並自動建立個別預測公式。由人為操作來搜尋各式各樣條件的組合有其極限,轉為自動化搜尋之後,便能高速且精準地分析大規模資料。

本次針對預測分析不可或缺的另一項流程「①設計特徴量」,成功研發出自動化的技術。

 

將「特徵量」的設計、評估等一連串流程成功自動化

例如,眾所皆知啤酒、冰淇淋等商品的銷售量與氣溫資料有關。氣溫資料在預測這類商品的銷售額時非常重要,但只把氣溫資料與銷售實績串接起來,並無法達到高度精準的預測。

 

舉例來說,原始資料(raw data)包含量測時的差異,資料可能無法完整反映出氣溫影響。此時如果求出氣溫資料的「移動平均*」,排除差異影響並擷取出特徵量,便可提高精準度。

 

此外,銷售與氣溫之間往往不見得是單純的連帶關係。氣溫超過特定溫度時,會急速影響銷售額,然而,除此之外並不會產生影響,關係頗為複雜。像這樣的情況,如果針對超過特定氣溫以上的資料,以分段線性函數局部放大並擷取為特徵量,就能提高預估精準度。

 

而這樣的特徵量,原本是基於事業相關知識與資料分析的知識,由專家不斷嘗試錯誤後設計出來的。這項作業被稱為「設計特徵量」,必須同時具備專業知識以及大量時間。本次研發的「特徵量自動設計技術」,就是將特徵量的設計、評估流程予以自動化。*將「時間序列」型的連續資料計算出平均的方法

 

專家花費3個月得出的大樓耗電量預估,僅1個月便完成分析

NEC運用此項特徵量自動設計技術進行了實證實驗:分析、預測3座大樓的電力需求。實驗結果是僅需1個月的時間,便完成專家需要3個月得出的耗電量預估,而且精準度媲美專家水準。

 

本項技術搭配「異種混合機械學習」的解決方案實際導入後,像是對於需要短時間分析大量資料的零售企業,針對個別商品預測分析時,能比傳統方式更快、更即時。

 

NEC針對巨量資料相關技術的下一個目標,立下如此的願景:由預測分析自動得出「判斷」,協助提供訂購數量、人員部署等相關事項的最佳規劃。如此不僅企業,也將為智慧用水、智慧交通等社會基礎設施領域有所貢獻。

今後,NEC的目標是建立起一條龍式預測分析解決方案的體系,用更短時間處理大量的原始資料,轉換運用在最優化引擎,為客戶提供「高速」、「高精準度」的價值。

 

研發出的演算法,能夠高速搜尋資料轉換處理的組合

有利於大量資料預測分析的「特徵量」,為了能夠在短時間內就自動計算出來,本次NEC新研發的演算法,能夠在龐大資料轉換處理的組合中,迅速找出關聯性最高的轉換組合。

 

為了讓演算更為迅速,在檢驗複數組合與樣式(Pattern)時,採取的做法是:將不斷進行的運算處理效能提升到最大,盡可能減少重新驗算的步驟。不僅如此,NEC研發的方式能夠在搜尋之前預測出「搜尋範圍內產生特徵量的正確性」,預先排除無謂搜尋,是本技術能夠大幅減少預測分析時間的重要原因。

 

此外,研發本項技術時,要產生特徵量所必備的「標準化」、「移動平均」等,將這些由NEC資料分析技術人員豐富經驗培育的各種「資料轉換處理」化為程式庫。搭配這個程式庫,多樣化的特徵量設計能夠更加輕鬆。

 

深度學習(Deep Learning)是近年來針對巨量資料預測分析頗受矚目的技術。然而,深度學習的預估精準度雖高,但無法明確顯示出預測的「根據」,呈現黑箱(Black Box)狀態。舉例而言,即使預測出「明天的飯糰銷售會加倍」,卻無法客觀說明其理由。另一方面,NEC研發的本項技術,只要讀取函數列,就能輕鬆瞭解進行過怎樣的演算處理、以何種規則性求得的預測。換言之,這樣的分析手法不僅預測精準度高,也能對企業顧客說明「根據」,是本技術的一大特色。(日文版原文發表日期:2015年11月)

將NEC資料科學家培育的各種「資料轉換處理」化為程式庫

研究者簡介

楠村幸貴 ( NEC資訊及知識研究所 北美分室 研究員 工學博士 )

學生時期主修電腦科學,從事針對Web資料的文字探勘等研究。進入公司後,分發至關西研究所,長年以來不斷從事文字探勘技術以及預測分析的研究。2014年起,轉調至NEC資訊及知識研究所北美分室。目前負責多項海外專案,包括:自來水基礎建設漏水檢測專案、停電預測專案等。假日時,有許多品酒的機會。「在美國喝葡萄酒,便宜又好喝。」經常與英國籍的妻子一起去愛爾蘭式酒吧。

藤卷遼平( NEC資訊及知識研究所 北美分室 首席研究員 工學博士 )

大學時主修航太工程,碩士班時期致力研究於運用機械學習/資料探勘技術偵測人工衛星異常或故障。進入公司後,分發至資訊及知識研究所,包括演算法、機械學習/資料探勘原理研發等,主要研發範圍是巨量資料分析必備的解決方案與軟體等。2010年起調任美國。與國外客戶共同研發解決方案、軟體。「國外的客戶與日本客戶相比,懂技術的人很多。」興趣是旅行。由於工作關係也有許多機會到北美以外地區,個人旅行的頻率約為每年一次。冬天的時候喜歡玩滑雪板。

Contact