HPE與英偉達攜手為AI訓練打造「交鑰匙」超算方案

但目前價格尚未公布，希望數字友好。

贊助商廣告

HPE與英偉達表示正為客戶提供構建模組，可用於組裝同布里斯托大學Isambard-AI超級電腦同架構的迷你版本，用以訓練生成式AI和深度學習項目。

兩家公司正聯手銷售一款基於HPE Cray EX2500架構及英偉達Grace Hopper超級晶片的模組化機器，其上運行的則是兩家公司共同提供的軟體工具棧。

該系統將於本周在科羅拉多州召開的SC23高性能計算（HPC）大會上公開演示，設計目標是通過預配置和預測試的完整技術棧，讓組織更輕鬆地啟動並運行AI訓練。當然，一切要等價格公布之後才有定論。

根據HPE的介紹，該系統是首款採用四GH200超級晶片節點配置的系統，就是說每個節點將包含4塊英偉達高端晶片。每塊超級晶片都擁有72核Arm架構Grace CPU與Hopper GPU，並配備480 GB的LPDDR5x記憶體與144 GB HBM3e高頻寬記憶體。

這些節點採用HPE的Slingshot互連技術，這項技術屬於以太網的超集，添加了高性能計算（HPC）所必需的諸多功能。

雖然硬體成本相當可觀，但HPE表示這套特殊的解決方案允許客戶先從小規模起步，隨後根據需求靈活擴展。

HPE高性能計算、人工智慧與實驗室執行副總裁Juston Hotard在採訪中表示，「已經有一部分客戶發布了搭載Grace Hopper超級晶片的產品，但我們的EX2500仍然獨一無二，因為它可作為統一的單位進行部署，全部冷卻、供電和計算板件均部署在同一模組之內。」

他解釋道，這意味著該系統「不僅為客戶提供了非常簡單的入門選項，同時還具備廣闊的擴展空間。」

作為方案中的軟體技術棧，HPE帶來了自己的機器學習開發環境（Machine Learning Development Environment）。這是一套用於訓練生成式AI模型的平台，主要基於HPE在2021年收購自Defined AI的技術。

方案中還包含英偉達的AI Enterprise套件，這是一系列AI工具和框架的集合，包括TensorFlow、PyTorch、英偉達RAPIDS與TensorRT軟體庫，以及Triton推理伺服器等。客戶還可以獲得HPE的Cray編程環境，這是一套用於代碼開發、移植和調試的工具組合。

贊助商廣告

Hotard表示，AI訓練是目前計算密度最大的工作負載之一，因此對計算架構的要求也比較特殊。

「我們都知道，雲架構是圍繞單一伺服器資源的最大化利用設計而成的。因此在面對工作負載時，這類方案傾向於將任務拆分成一個個較小的部分。」

「但AI工作負載，特別是訓練和大規模微調類負載，則有著截然不同的特性。在某些情況下，這些工作負載需要將整座數據中心視為單一電腦來運行。AI工作負載需要運行在幾百甚至數千個節點之上，並要求所有計算、互連和儲存資源都要像在超級電腦內那樣高度一致地規模化運行。」

當然，這套新系統的服務對象僅限那些掌握充足財務預算的組織，不過HPE目前拒絕透露關於成本的具體資訊。Hotard表示價格將在不久之後對外公布。

英偉達科學項目經理Jack Wells宣稱，基準測試結果顯示，在使用Llama 2處理大語言模型（LLM）推理工作負載時，基於GH200的單一節點比雙至強CPU伺服器快100倍。

他聲稱，「生成式AI正在重構科學計算思路，並帶動起極為巨大的市場需求。」他同時強調，HPE與英偉達的這款產品已經吸引到多家客戶。

其中包括蘇黎世聯邦理工學院的超級電腦、波蘭Cyfronet、洛斯阿拉莫斯國家實驗室，以及布里斯托大學的Isambard-AI系統（計劃部署5448塊英偉達GH200超級晶片）。

HPE表示，該服務將從12月登陸30多個國家的市場。除了來自公共部門和研究機構的AI創新中心客戶之外，該項目預計還將吸引到不少企業巨頭的關注。