NEC開發高速分析超大規模資料的「分散版異種混合機械學習」

NEC日前宣佈,運用人工智慧(AI)發現混雜於巨量資料中複數規則的「異種混合機械學習」技術(註1)為基礎,開發出更為強化的「分散版異種混合機械學習」技術,這項技術能從超大規模資料中,以分散的運算系統產生預測模型。

所謂的「異種混合機械學習」,是藉由巨量資料的分析與預測,再加上星期幾、天氣如何等條件,自動發現其中「資料的狀況分類」與「變數(註2)的組合」的技術。

過往,資料的範例數量達到數千萬件以上、大於一台電腦搭載記憶體容量的超大規模資料,要將其進行分析時,會另外再將資料分割後進行分析。另外,即使搭載高性能CPU(核心數增加等狀況)也有所極限,因此該如何改善大規模的資料分析效能,就是目前面臨的課題。

這次NEC所開發的技術「分散版異種混合機械學習」,是讓分散開來的不同電腦,各自進行異種混合機械學習的分析時,能夠同時將全體整合起來,只要增加電腦數量,龐大的資料也能不受限制的產生預測模型。舉例來說,大型金融機構的結餘預測,或是大型電信業者的客戶解約數量預測,像這樣有數千萬件相關事例的超大規模資料,也能運用這次的新技術來進行分析。

由新技術來進行實證實驗(註3)的結果,與舊技術相比,AI的學習速度約提昇為原本的110倍(註4),預測精準度(註5)也提昇了17%。

NEC針對本技術會持續更進一步開發研究,目標在2018年3月將技術實用化。

NEC致力於推廣「社會解決方案事業」,運用本技術為首的先進AI技術,為打造安全.安心的社會與商業基礎建設的強化有所貢獻。

背景

針對巨量資料迅速進行分析,在預測未來情形時也有所幫助,現在對如此技術的期待日益提昇。NEC至今都持續獨家開發並強化「異種混合機械學習」,這項AI技術能夠高度精確地進行巨量資料分析。(註1)

透過「異種混合機械學習」技術,使資源可以有效運用,包含能源、水、食材的需求預測,為提昇物流管理效率的庫存需求預測,強化零售店舖管理的商品需求預測等情形,都能進行高精準度且大規模的預測。

另一方面,「異種混合機械學習」技術發展到現階段,在運用超大規模資料學習時,會受到電腦記憶體容量、CPU 核心數限制等性能上的侷限,是目前面臨的課題。

這次所開發的「分散版異種混合機械學習」,是在分散的運算系統上能夠執行異種混合機械學習,即使資料事例數量有數千萬件以上的超大規模資料,只需增加電腦的數量,就能夠不受限制地藉由本技術來產生預測模型。

新技術的特長如下所述。

新技術的特長

  1. 開發出可適用於分散運算系統的演算法(手法)
    開發出的分散版異種混合機械學習演算法,能同時使複數的電腦協作,從預測模型中學習。本演算法會將①預測模型資訊(依據資料狀況分類與變數組合的資訊)與②統合各個預測模型資訊後適用於獨創演算法的部份,由這兩者讓電腦們各自獨立學習後全體整合運用,產生高度精準的預測模型。
  2. 開發出可在分散運算基礎Apache Spark上運行的軟體
    作為分散運算系統基礎之一的Apache Spark(註6),NEC開發出可在此系統基礎上運行分散版異種混合機械學習演算法的軟體。
    本軟體會將所有分析對象的資料,分散配置給不同電腦的記憶體,之後不需再次分配或進行讀取,就能運行分散版異種混合機械學習演算法。藉由這樣的方式,與分析對象資料的通信或存取硬碟次數,並不會因為電腦數量而隨之增加,更能發揮Spark的優勢,在分散的不同記憶體上發揮最大的運算效能,因而能夠高速運行演算法。

另外,NEC將在美國的Spark Summit 2016(6/6~6/8於美國舊金山,註7)的6/8場次,以及Hadoop Summit San Jose 2016(6/28~6/30於美國聖荷西,註8)的6/30場次,發表本技術相關內容。

NEC集團致力於全球推廣「社會解決方案事業」,以提供安全.安心.效率.公平的社會價值,融合先進的ICT技術與知識,實現更為明亮而豐裕、更具效率而精粹的社會。

(註1) 2014年7月29日NEC強化「異種混合機械學習技術」 發現巨量資料中的複數規則
(註2)為了說明或預測分析對象,而輸入的變數。

(註3)將資料分割後也能適用於先前的異種混合機械學習技術。實驗內容為運用2000萬筆餘額資料事例來預測ATM的現金餘額。

(註4)分析資料以1000萬筆事例的情形進行比較,總CPU核心數以128倍計算。

(註5)預測值與實際值的誤差。

(註6)美國加州大學柏克萊分校所開發的開源叢集運算框架。

(註7)關於Apache Spark最知名的技術大會之一。2016的大會相關資訊請參考:https://spark-summit.org/2016/events/distributed-heterogeneous-mixture-learning-on-spark/

(註8) 關於Apache Spark最知名的技術大會之一。相關資訊請參考:
http://hadoopsummit.org/san-jose/