NVIDIA希望此舉將有助於鞏固目前已投入生產的新型Blackwell GPU系列,使其成為人工智慧和高性能計算的標準。
在OCP全球峰會上的另一份聲明中,Arm宣布與三星的Foundry、ADTechnology以及韓國船舶初創公司Rebellions合作開發針對雲、高性能計算、AI/機器學習訓練和推理的AI CPU晶片平台。
NVIDIA將與OCP共享的GB200 NVL72系統機電設計(如圖)元素包括機架架構、計算和交換機托盤機械結構、液體冷卻和熱環境規格、以及NVLink電纜盒體積。NVLink是NVIDIA開發的高速互連技術,可以實現GPU之間的更快通信。
GB200 NVL72是一款液冷設備,配備了36個GB200加速器和72個Blackwell GPU。NVLink域將它們連接到一個單一的大型GPU,可以提供每秒130兆字節的低延遲通信。
專為AI打造
GB200 Grace Blackwell Super Chip將兩個Blackwell Tensor Core GPU和一個NVIDIA Grace CPU連接起來。NVIDIA表示,這款機架級設備能夠以比上一代H100 Tensor Core GPU快30倍的速度進行大型語言模型推理,並且能效提高25倍。
NVIDIA為OCP做出了十多年的貢獻,包括在2022年提交了HGX H100基板設計,現在已經成為AI伺服器的事實標準,以及在2023年捐贈了ConnectX-7適配器網路接口卡設計,現在已經成為OCP網路接口卡3.0的基礎設計。
Spectrum-X是一個專為AI工作負載(尤其是在數據中心環境中)構建的以太網網路平台。它結合了NVIDIA Spectrum-4以太網交換機及其BlueField-3數據處理單元,可以實現低延遲、高吞吐量和高效的網路架構。NVIDIA表示,仍將致力於為客戶提供Infiniband選項。
這一平台現在支持OCP的Switch Abstraction Interface和Software for Open Networking in the Cloud(SONiC)標準。其中,Switch Abstraction Interface對於網路作業系統與網路交換機硬體的交互方式實施了標準化。SONiC則是一個獨立於硬體的網路軟體層,面向雲基礎設施運營商、數據中心和網路管理員。
NVIDIA表示,客戶可以使用Spectrum-X的自適應路由和基於遙測的擁塞控制功能來加速可擴展AI基礎設施的以太網性能。OCP 3.0的ConnectX-8 SuperNIC網路接口卡將於明年上市,讓企業組織能夠構建更靈活的網路。
解決複雜性問題
NVIDIA數據中心GPU產品營銷總監Shar Narasimhan表示:「在過去五年中,我們看到AI模型的複雜性增加了20000多倍,還使用了更豐富的、更大的數據集。」NVIDIA對此做出了回應,設計了一種系統可以將模型分片或分段到通過高速互連連接的GPU集群中,以便所有處理器都可以作為單個GPU運行。
在GB200 NVL72中,每個GPU都可以通過每秒1.8 TB的互連直接訪問其他每個GPU,「這使得所有GPU都可以作為一個統一的GPU工作,」Narasimhan說。
以前,在HGX H200基板上,單個NVLink域中連接的GPU數量最多為8個,通信速度為每秒900千兆位。GB200 NVL72將容量增加到72個Blackwell GPU,通信速度為每秒1.8兆字節,比以前的高端以太網標準快36倍。
Narasimhan表示:「關鍵要素之一就是使用NVSwitch將所有伺服器和計算GPU緊密結合在一起,以便我們可以將它們安裝到單個機架中,這使我們能夠使用銅纜線配置NVLink以降低成本,並且比光纖消耗更少的電量。」
NVIDIA在機架上增加了100磅的鋼筋以適應密集的基礎設施,並開發了快速釋放管道和電纜技術。NVLink主幹經過加固,可容納多達5000根銅纜,提供120 kW的功率,是當前機架設計負載的兩倍多。
「我們將為整個機架貢獻我們所取得的所有創新,以加固機架本身,升級NV Links、線路冷卻和管道快速斷開創新,以及位於計算托盤和開關托盤頂部的歧管,為每個單獨的托盤提供直接液體冷卻,」Narasimhan說。
Arm牽頭的這個項目將結合Rebellions的Rebel AI加速器以及ADTechnology以Neoverse CSS V3為驅動的計算晶片,該晶片採用三星代工廠的2納米Gate-All-Around先進工藝技術實現。兩家廠商表示,在運行生成AI工作負載時,該晶片的性能和能效是競爭對手架構的兩到三倍。Rebellions今年早些時候籌集了1.24億美金,用於資助其工程設計工作。