全新CUDA 4.0簡化平行運算編程作業

NVIDIA宣佈推出最新版NVIDIA® CUDA®工具套件，鎖定運用NVIDIA繪圖處理器(GPU)開發平行運算應用，為開發者提供更多工具和全新功能。

NVIDIA CUDA 4.0工具套件可將平行運算編程變得更容易，並可讓開發者將應用植入GPU內，成就以下三項主要特色：

NVIDIA GPUDirect™ 2.0技術－可在單一伺服器或工作站中支援GPU對GPU的傳輸。這可讓多重GPU編程變得更容易、更快，並可確保應用程式的效能。
統一虛擬位址技術(UVA)－可針對主系統記憶體和GPU內建記憶體提供單一合併記憶體位址空間，讓平行運算編程變得更快、更容易。
Thrust C++樣本效能原生程式庫－提供一系列效能強勁的開放原始碼C++平行運算演算法，以及可為C++開發者提供更容易進行編程的資料架構。如平行運算分類等一般作業，透過Thrust可比採用標準樣本庫(STL)和執行緒結構模組(TBB)執行的分類作業快5到100倍不等。

美國伊利諾大學香檳分校資深研究程式設計師John Stone表示：「統一虛擬位置和GPU與GPU之間更快速的傳輸速度，可讓開發人員盡情運用和發揮GPU的平行運算技術。」

Quantifi公司利率產品部門總監Peter Decrem表示：「透過標準格式介面運用GPU運算，讓眾多作業皆可大幅提升效能，從簡單的現金流量計算到複雜的Libor倫敦同業拆款市場模型、變動年金或資本化信用價值調整(CVA)等都可受惠。在Thrust C++函式庫納入記憶體存取和配置等低階功能後，已大大地降低了進入的門檻，讓金融工程師可針對GPU加速的環境專注開發演算法。」

CUDA 4.0架構包括了許多其他主要特色和功能，包括：

MPI與CUDA應用之整合－修正後的MPI配置，像OpenMPI等，可在應用程式送出或接收一個MPI指令時，運用Infiniband 自動將資料在系統與GPU記憶體之間傳送。
GPU的多重執行緒共享功能－多個CPU主執行緒可以在單一的GPU中分享各種使用情境，讓多緒應用更容易共用一個GPU。
單一CPU執行緒共享多重GPU－單一CPU主執行緒可以存取所有系統中的GPU。開發人員可以針對應用程式內的「halo」交換等作業輕鬆地進行協調。
全新NPP影像與電腦視覺函式庫－一套提供豐富工具的影像轉換作業，為各種影像和電腦視覺應用提供快速的開發環境。
全新改良功能包括：

o 在Visual Profiler提供自動效能分析

o 在cuda-gdb內提供全新功能，並加入針對MacOS作業系統的支援

o 加入針對新增/刪除等C++功能和虛擬功能的支援

o 全新GPU二位元反彙編器

CUDA Toolkit 4.0版本從2011年3月4日起透過CUDA註冊開發者計畫(www.nvidia.com/paralleldeveloper )免費提供下載。CUDA註冊開發者計畫為平行運算應用開發者提供豐富的工具、資源和資訊，將CUDA的潛力發揮到極致。

欲瞭解更多關於CUDA 工具套件與GPGPU應用程式的特色與功能，請瀏覽www.nvidia.com.tw/cuda網站。

關於NVIDIA

NVIDIA公司在1999年發明了繪圖處理器(GPU)後，便讓全世界認識到電腦繪圖功能的威力；從此，NVIDIA藉由在各種可攜式媒體播放器、小筆電到工作站等裝置中採用的突破性、互動式繪圖功能，不斷為視覺運算定義各種全新標準。NVIDIA在可編程繪圖處理器領域的專精為平行處理技術帶來各種突破，並讓超級運算技術在價格上變得平易近人，因而廣被採用。NVIDIA在美國擁有超過1,700項專利，其中包括現代運算技術基礎之設計與深入研究。欲瞭解更多NVIDIA詳細資訊，請瀏覽www.nvidia.com.tw網站。

C4IT News Channel

4C新聞集散中心

全新CUDA 4.0簡化平行運算編程作業