宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

HPE與英偉達攜手為AI訓練打造「交鑰匙」超算方案

2023年11月14日 首頁 » 熱門科技

但目前價格尚未公布,希望數字友好。

HPE與英偉達攜手為AI訓練打造「交鑰匙」超算方案

HPE與英偉達表示正為客戶提供構建模塊,可用於組裝同布里斯托大學Isambard-AI超級電腦同架構的迷你版本,用以訓練生成式AI和深度學習項目。

兩家公司正聯手銷售一款基於HPE Cray EX2500架構及英偉達Grace Hopper超級晶片的模塊化機器,其上運行的則是兩家公司共同提供的軟體工具棧。

該系統將於本周在科羅拉多州召開的SC23高性能計算(HPC)大會上公開演示,設計目標是通過預配置和預測試的完整技術棧,讓組織更輕鬆地啟動並運行AI訓練。當然,一切要等價格公布之後才有定論。

根據HPE的介紹,該系統是首款採用四GH200超級晶片節點配置的系統,就是說每個節點將包含4塊英偉達高端晶片。每塊超級晶片都擁有72核Arm架構Grace CPU與Hopper GPU,並配備480 GB的LPDDR5x內存與144 GB HBM3e高帶寬內存。

這些節點採用HPE的Slingshot互連技術,這項技術屬於以太網的超集,添加了高性能計算(HPC)所必需的諸多功能。

雖然硬體成本相當可觀,但HPE表示這套特殊的解決方案允許客戶先從小規模起步,隨後根據需求靈活擴展。

HPE高性能計算、人工智慧與實驗室執行副總裁Juston Hotard在採訪中表示,「已經有一部分客戶發布了搭載Grace Hopper超級晶片的產品,但我們的EX2500仍然獨一無二,因為它可作為統一的單位進行部署,全部冷卻、供電和計算板件均部署在同一模塊之內。」

他解釋道,這意味著該系統「不僅為客戶提供了非常簡單的入門選項,同時還具備廣闊的擴展空間。」

作為方案中的軟體技術棧,HPE帶來了自己的機器學習開發環境(Machine Learning Development Environment)。這是一套用於訓練生成式AI模型的平台,主要基於HPE在2021年收購自Defined AI的技術。

方案中還包含英偉達的AI Enterprise套件,這是一系列AI工具和框架的集合,包括TensorFlow、PyTorch、英偉達RAPIDS與TensorRT軟體庫,以及Triton推理伺服器等。客戶還可以獲得HPE的Cray編程環境,這是一套用於代碼開發、移植和調試的工具組合。

Hotard表示,AI訓練是目前計算密度最大的工作負載之一,因此對計算架構的要求也比較特殊。

「我們都知道,雲架構是圍繞單一伺服器資源的最大化利用設計而成的。因此在面對工作負載時,這類方案傾向於將任務拆分成一個個較小的部分。」

「但AI工作負載,特別是訓練和大規模微調類負載,則有著截然不同的特性。在某些情況下,這些工作負載需要將整座數據中心視為單一電腦來運行。AI工作負載需要運行在幾百甚至數千個節點之上,並要求所有計算、互連和存儲資源都要像在超級電腦內那樣高度一致地規模化運行。」

當然,這套新系統的服務對象僅限那些掌握充足財務預算的組織,不過HPE目前拒絕透露關於成本的具體資訊。Hotard表示價格將在不久之後對外公布。

英偉達科學項目經理Jack Wells宣稱,基準測試結果顯示,在使用Llama 2處理大語言模型(LLM)推理工作負載時,基於GH200的單一節點比雙至強CPU伺服器快100倍。

他聲稱,「生成式AI正在重構科學計算思路,並帶動起極為巨大的市場需求。」他同時強調,HPE與英偉達的這款產品已經吸引到多家客戶。

其中包括蘇黎世聯邦理工學院的超級電腦、波蘭Cyfronet、洛斯阿拉莫斯國家實驗室,以及布里斯托大學的Isambard-AI系統(計劃部署5448塊英偉達GH200超級晶片)。

HPE表示,該服務將從12月登陸30多個國家的市場。除了來自公共部門和研究機構的AI創新中心客戶之外,該項目預計還將吸引到不少企業巨頭的關注。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新