IBM攜手Spark,擁抱機器學習的下一個世代

【2015年9月15日,台北訊】Spark是目前相當受歡迎的開放原始碼叢集運算架構,相較於Hadoop,Spark擁有敏捷快速的效能和便於應用的優勢,因其採用記憶體儲存數據資料,使它擁有高效運算;而通用的API協助使用者編寫複雜的平行運算程式,讓Spark程式更容易開發和理解。憑藉高效能優勢,Spark已成為機器學習的重要工具。IBM日前宣佈加入Spark社群,IBM期望和Spark社群暨其核心關係企業Databricks合作,共同引領海量資料及機器學習領域邁向未來發展。

強化Spark的機器學習能力、創新演算法開發

台灣IBM軟體事業處商業分析業務協理胡育銘表示,IBM美國舊金山Spark技術中心有超過200位的技術人員正在將Spark技術具體實現在企業應用中。同時,也將Spark嵌入IBM領先業界的分析和商務平台,讓Spark成為IBM Bluemix平台上的服務之一。另外,IBM在全球十多個實驗室將投入超過3500名研發人員展開與Spark相關的專案,並讓Spark開放生態系能使用IBM研發超過十年的機器學習技術–SystemML,IBM的認知運算系統Watson(華生)便整合許多SystemML機器學習的功能。此次IBM與Databricks合作,即是希望結合SystemML的功能,讓Spark具有更強大的機器學習能力,以及讓資料科學家更專注於演算法的應用,而非專注於枝微末節的技術。

Open Data Platform(ODP)是眾多資訊企業聯合成立的Hadoop資料平台,然而對大部分企業用戶而言,開源並不代表可直接使用,所以在開源之上又推出Hadoop資料平台。希望在選擇Hadoop資料平台中的核心元件時,大家可以選用公共、統一的代碼。如此,透過使用Hadoop資料平台,使用者可不再受限於特定廠商的開放原始碼,既利用開源的好處,同時也讓企業用戶不再備受束縛。胡育銘進一步表示,IBM一直致力於將企業客戶的需求與最新技術進行有效銜接,然而新技術很多,很可能會出現訊息孤島的情形,我們能將新的技術為企業需求真正合而為一,將所謂的單點和孤島進行整合。IBM對企業應用的豐富經驗是許多商業分析解決方案供應商無可比擬的,例如新元件一直出現以及重要技術持續變化,透過Open Data Platform (ODP)開放平台,讓多家資訊公司在平台上貢獻經驗與想法,為企業客戶提供服務。

IBM專精於分析探勘語言及SQL關聯式資料庫領域已長達30多年,具備大量的優化技術。此外,SPSS的許多預測分析產品的演算法也可與Spark相互結合,因為SPSS得以讓Spark大幅提升處理資訊的資料量、速度與能力。未來IBM將陸續推出Spark系列產品,包括Watson Analytics、DataWorks、PuerData 以及其他解決方案。

全球IBM投資超過兩百五十億美元培養Spark技術人才

Spark具備敏捷快速、便於應用的特性,而其開源屬性可在全球持續改進,未來IBM的專家將與Apache Spark開放社群合作,推動先進機器學習技術,並加快智能創新業務應用開發的速度。IBM在開放原始碼創新領域已經耕耘多年,我們深信開源的力量是客戶創造價值的根源,IBM將全力支持Spark,將其作為推動分析的基礎技術平台,從根本上加速推動業務創新,協助客戶部署和運用Spark推動商業分析策略,實現業務轉型和差異化競爭優勢。

除支援Spark之外,IBM透過向下扎根方式與大中華區大專院校合作,如宣佈投資1億美元,在大中華推動「U100」計畫;在台灣,IBM已在政大、台大、交大等多所大專院校開立商業分析(Analytics)課程,期望能培養更多未來的資料科學家,截至目前為止,全球IBM在商業分析領域已投入超過250億美元。