Supermicro三款強大的SuperCluster解決方案現已上市,並可被用於生成式AI工作運行。
Supermicro, Inc.為AI、雲計算、存儲和5G/邊緣領域的全方位IT解決方案製造商,宣布推出其最新產品組合,加速生成式AI部署。Supermicro SuperCluster解決方案能為如今及未來大型語言模型(Large Language Model,LLM)硬體基礎設施提供核心構建組件。
Supermicro三款強大的SuperCluster解決方案現已上市並可被用於生成式AI工作運行。這些解決方案內的4U液冷系統或8U氣冷系統是專為強大LLM訓練性能以及高度批次大小且大量的LLM推論所設計。配備了1U氣冷Supermicro NVIDIA MGXTM系統的第三款SuperCluster超級集群則針對雲計算級推論進行了優化。
Supermicro總裁暨首席執行官梁見後表示:「在AI時代,運算力單位是以集群來衡量,不再只用伺服器數量作為依據。我們的全球製造產能已擴大到每月5,000台機櫃,能比以往更快地為客戶提供完整生成式AI運算集群。
只需通過我們採用400Gb/s NVIDIA Quantum-2 InfiniBand和Spectrum-X Ethernet網路技術的數個可擴展型集群構建組件,一個64節點的運算集群能支持具有72TB HBM3e的512個NVIDIA HGX H200 GPU。
結合了NVIDIA AI Enterprise軟體的Supermicro SuperCluster解決方案非常適合用於針對如今企業與雲計算基礎架構的LLM訓練,且最高可達兆級參數。互聯的GPU、CPU、內存、存儲、以及網路硬體在被部署至機櫃內的多個節點後形成如今AI技術的基礎。Supermicro的SuperCluster解決方案為快速發展的生成式AI與LLM提供了核心構建組件。」
NVIDIA GPU產品部門副總裁Kaustubh Sanghani則表示:「NVIDIA最新型GPU、CPU、網路與軟體技術助力能讓系統製造者為全球市場內不同類型的下一代AI工作運行實現加速。通過結合基於Blackwell架構產品的NVIDIA加速運算平台,Supermicro能提供客戶所需要的前沿伺服器系統,且這些系統可容易地被部署至數據中心。」
Supermicro 4U NVIDIA HGX H100/H200 8-GPU系統通過液冷技術使8U氣冷系統運算密度加倍,同時降低能耗量與總體擁有成本(TCO)。
這些系統旨在為了支持下一代NVIDIA的Blackwell架構GPU。Supermicro冷卻分配單元(Cooling Distribution Unit,CDU)與冷卻分配分流管(Cooling Distribution Manifold,CDM)是主要冷卻液流動脈絡,可將冷卻液輸送至Supermicro定製的直達晶片(Direct-to-Chip,D2C)冷板,使GPU和CPU處於最佳運行溫度,進而實現性能最大化。
此散熱技術可使一整座數據中心電力成本降低最多40%,同時節省數據中心占地空間。
搭載NVIDIA HGX H100/H200 8-GPU的系統非常適合用於訓練生成式Al。通過NVIDIA NVLink技術高速互聯的GPU,以及高GPU內存帶寬與容量,將成為符合成本效益地運行LLM的核心關鍵。Supermicro的SuperCluster具備龐大GPU共享資源,能作為一個AI超級電腦進行運算作業。
無論是導入一個最初就以數兆級詞元(token)數據集進行完整訓練的大型基礎模型,或開發一個雲計算級LLM推論基礎架構,具有無阻式400Gb/s網路結構的主幹枝葉式架構(Spine and Leaf Network Topology)都能從32個運算節點順暢地擴展至數千個節點。針對完全集成的液冷系統,Supermicro在產品出廠前會藉由經認證的測試流程徹底驗證與確保系統運行成效與效率。
採用了NVIDIA GH200 Grace Hopper Superchip的Supermicro NVIDIA MGX系統設計將能打造出未來AI運算集群的架構樣式以解決生成式AI的關鍵瓶頸:運行高推論批次大小的LLM所需的GPU內存帶寬及容量,進而降低運營成本。具256節點的運算集群能實現雲計算級大量推論算力引擎,並易於部署與擴展。
通過GPU間可實現的頂級互聯性能,Supermicro的SuperCluster解決方案針對LLM訓練、深度學習,以及大量且高批次推論進行了優化。Supermicro的L11和L12驗證測試結合了現場部署服務,可為客戶提供更順暢體驗。客戶收到即插即用的可擴展單元後能實現數據中心內的輕鬆部署,並可更快獲取成果。