「特徵量自動設計技術」

運用巨量資料的預測分析，仰賴專家知識與人為操作

要根據企業累積的巨量資料（Big Data）進行銷售額或需求之類的精準預測，必須選擇適合資料的加工處理及分析手法。具體來說，下述兩項流程特別重要：

①設計特徵量：基於實際作業的知識與經驗，將原始資料轉換成「有可能影響預測的資料（以下簡稱「特徵量」）」時，針對處理步驟進行設計。

②設計模型：考量到夾雜於巨量資料當中的複數規則性，預測其改變要素進行「狀況分類」，同時選擇出能巧妙展現個別規則性的預測模型。

以便利商店為例，光是便當、熟食等生鮮品項就有數百種，而且在全國營運的上萬家店舖，位置環境皆有不同。要從總部累積的龐大資料，進行高精準度預測分析的話，資料分析技術人員必須重複特徵量的設計與實驗，且需要耗費大量時間人為操作來找出每間店鋪／每樣商品所具有的複數規則性。

仰賴專家知識與人為操作的預測分析，為了提升精準度、縮短分析時間，NEC在2011年啟動研究專案，首先對於②「設計模型」方面，研發「異種混合學習技術」並於2014年發布，這項技術能夠將混雜在巨量資料中的複數規則性，自動針對不同狀況分類，並自動建立個別預測公式。由人為操作來搜尋各式各樣條件的組合有其極限，轉為自動化搜尋之後，便能高速且精準地分析大規模資料。

本次針對預測分析不可或缺的另一項流程「①設計特徴量」，成功研發出自動化的技術。

將「特徵量」的設計、評估等一連串流程成功自動化

例如，眾所皆知啤酒、冰淇淋等商品的銷售量與氣溫資料有關。氣溫資料在預測這類商品的銷售額時非常重要，但只把氣溫資料與銷售實績串接起來，並無法達到高度精準的預測。

舉例來說，原始資料（raw data）包含量測時的差異，資料可能無法完整反映出氣溫影響。此時如果求出氣溫資料的「移動平均*」，排除差異影響並擷取出特徵量，便可提高精準度。

此外，銷售與氣溫之間往往不見得是單純的連帶關係。氣溫超過特定溫度時，會急速影響銷售額，然而，除此之外並不會產生影響，關係頗為複雜。像這樣的情況，如果針對超過特定氣溫以上的資料，以分段線性函數局部放大並擷取為特徵量，就能提高預估精準度。

而這樣的特徵量，原本是基於事業相關知識與資料分析的知識，由專家不斷嘗試錯誤後設計出來的。這項作業被稱為「設計特徵量」，必須同時具備專業知識以及大量時間。本次研發的「特徵量自動設計技術」，就是將特徵量的設計、評估流程予以自動化。*將「時間序列」型的連續資料計算出平均的方法

專家花費3個月得出的大樓耗電量預估，僅1個月便完成分析

NEC運用此項特徵量自動設計技術進行了實證實驗：分析、預測3座大樓的電力需求。實驗結果是僅需1個月的時間，便完成專家需要3個月得出的耗電量預估，而且精準度媲美專家水準。

本項技術搭配「異種混合機械學習」的解決方案實際導入後，像是對於需要短時間分析大量資料的零售企業，針對個別商品預測分析時，能比傳統方式更快、更即時。

NEC針對巨量資料相關技術的下一個目標，立下如此的願景：由預測分析自動得出「判斷」，協助提供訂購數量、人員部署等相關事項的最佳規劃。如此不僅企業，也將為智慧用水、智慧交通等社會基礎設施領域有所貢獻。

今後，NEC的目標是建立起一條龍式預測分析解決方案的體系，用更短時間處理大量的原始資料，轉換運用在最優化引擎，為客戶提供「高速」、「高精準度」的價值。

研發出的演算法，能夠高速搜尋資料轉換處理的組合

有利於大量資料預測分析的「特徵量」，為了能夠在短時間內就自動計算出來，本次NEC新研發的演算法，能夠在龐大資料轉換處理的組合中，迅速找出關聯性最高的轉換組合。

為了讓演算更為迅速，在檢驗複數組合與樣式（Pattern）時，採取的做法是：將不斷進行的運算處理效能提升到最大，盡可能減少重新驗算的步驟。不僅如此，NEC研發的方式能夠在搜尋之前預測出「搜尋範圍內產生特徵量的正確性」，預先排除無謂搜尋，是本技術能夠大幅減少預測分析時間的重要原因。

此外，研發本項技術時，要產生特徵量所必備的「標準化」、「移動平均」等，將這些由NEC資料分析技術人員豐富經驗培育的各種「資料轉換處理」化為程式庫。搭配這個程式庫，多樣化的特徵量設計能夠更加輕鬆。

深度學習（Deep Learning）是近年來針對巨量資料預測分析頗受矚目的技術。然而，深度學習的預估精準度雖高，但無法明確顯示出預測的「根據」，呈現黑箱（Black Box）狀態。舉例而言，即使預測出「明天的飯糰銷售會加倍」，卻無法客觀說明其理由。另一方面，NEC研發的本項技術，只要讀取函數列，就能輕鬆瞭解進行過怎樣的演算處理、以何種規則性求得的預測。換言之，這樣的分析手法不僅預測精準度高，也能對企業顧客說明「根據」，是本技術的一大特色。（日文版原文發表日期：2015年11月）

將NEC資料科學家培育的各種「資料轉換處理」化為程式庫

研究者簡介

楠村幸貴 ( NEC資訊及知識研究所北美分室研究員工學博士 )

學生時期主修電腦科學，從事針對Web資料的文字探勘等研究。進入公司後，分發至關西研究所，長年以來不斷從事文字探勘技術以及預測分析的研究。2014年起，轉調至NEC資訊及知識研究所北美分室。目前負責多項海外專案，包括：自來水基礎建設漏水檢測專案、停電預測專案等。假日時，有許多品酒的機會。「在美國喝葡萄酒，便宜又好喝。」經常與英國籍的妻子一起去愛爾蘭式酒吧。

藤卷遼平( NEC資訊及知識研究所北美分室首席研究員工學博士 )

大學時主修航太工程，碩士班時期致力研究於運用機械學習／資料探勘技術偵測人工衛星異常或故障。進入公司後，分發至資訊及知識研究所，包括演算法、機械學習／資料探勘原理研發等，主要研發範圍是巨量資料分析必備的解決方案與軟體等。2010年起調任美國。與國外客戶共同研發解決方案、軟體。「國外的客戶與日本客戶相比，懂技術的人很多。」興趣是旅行。由於工作關係也有許多機會到北美以外地區，個人旅行的頻率約為每年一次。冬天的時候喜歡玩滑雪板。

Displaying present location in the site.