英偉達推出的最新高性能計算與AI晶片採取大型單板電腦形式,配備四塊Blackwell GPU、144個Arm Neoverse核心、高達1.3 TB的HBM內存容量以及高達5.4千瓦的熱設計功耗(TDP)。
從諸多方面來看,本周在亞特蘭大超級計算大會上全面推薦的全新GB200 NVL4,在外形上酷似由英偉達即將推出的兩塊Grace-Blackwell超級晶片拼接而成。
然而,與我們之前看到的2.7千瓦版GB200機板不同,英偉達NVL4所配置的高速NVLink通信僅限於板上的四塊Blackwell GPU以及兩塊Grace CPU。所有板內或板外I/O則將由傳統以太網或者InfiniBand NIC負責處理。
GB200 NVL4本質上就是兩塊連接起來的GB200超級晶片,再減去板外部分的NVLink。
雖然這種設計思路看似奇怪,但實際上與之前的高性能計算系統卻是一脈相承。例如,Frontier超算系統中的Cray EX Blades就採用了一塊第三代Epyc CPU加四塊MI250X加速器的組合形式。
這也意味著HPE、Eviden和聯想等主要高性能計算系統製造商不必拘囿於通過英偉達的專有互連來進行縱向與橫向擴展。HPE和Eviden都擁有自己的互連傳輸技術。
事實上,HPE還預告將於2025年底推出新的EX系統,且確定將採用英偉達的GB200 NVL4機板。上周發布的EX154n能夠在其巨大的液冷高性能電腦櫃當中塞入多達56塊超寬規格的超級晶片(每個刀片伺服器一塊)。
在這樣的滿配條件下,單個EX機櫃即可提供超過10千萬億次的FP64矢量或矩陣算力。雖然聽起來數字相當誇張,但如果只從高精度科學計算的角度來看,基於AMD的HPE系統其實能提供更加可觀的浮點運算性能。
Cray的EX255a刀片伺服器中的MI300A APU可提供61.3萬億次矢量FP64或122.6萬億次矩陣FP64算力,而每張Blackwell GPU的雙精度矢量/矩陣性能則僅為45萬億次。
對於以AI為中心的工作負載類型,雙方的性能差距則要小得多,因為每張MI300A加速器能夠輸出3.9造成億次的稀疏FP8算力性能。所以對於一台滿配條件下的EX機櫃,用戶可以獲得約2百億億次的FP8性能,而Blackwell系統只需安裝近半數GPU即可實現約2.2百億億次FP8算力。如果大家的實際用例適合MI300A無法支持的FP4數據類型,則性能還可進一步倍增。
儘管HPE Cray是首批宣布支持英偉達NVL4設計方案的廠商之一,但預計Eviden聯想以及更多其他企業也將很快推出基於該設計的計算刀片與伺服器。
H200 PCIe卡迎來NVL升級
除了英偉達的雙倍寬度GB200 NVL4之外,GPU巨頭此番還宣布其基於PCIe的H200 NVL配置已經全面上市。
不過大家先別急著興奮,與2023年初公布的H100 NVL類似,這次亮相的H200 NVL在本質上也只是一款雙倍寬度PCIe卡(最多四倍寬度),並採用NVLink橋連接在一起。
與英偉達基於SXM的大尺寸DGX與HGX平台一樣,這款NVLink橋接器允許GPU將計算和內存資源集中起來以處理規模更大的任務,確保不會在速度較慢的PCIe 5.0 x 16接口上出現性能瓶頸。該接口的雙工帶寬上限僅為128 GBps,而NVLink的帶寬上限則有900 GBps。
在最大容量下,H200 NVL能夠支持高達564 GB的HBM3e內存和13.3萬億次的峰值稀疏FP8運算性能。同樣的,這是因為H200 NVL僅僅是將四張H200 PCIe卡用一條速度極快的互連橋連接在一起。
需要注意的是,所有這些性能指標都是以犧牲功率和散熱為代價的。在這套四堆棧系統中,每張H200卡的額定功率高達600瓦,總功率達到2.4千瓦。
話雖如此,這樣的設計也的確有其優勢。至少,這些加速卡幾乎可以被部署在任何具備充足空間、電源並可提供必要散熱氣流的19英寸機架伺服器當中,因此大大降低了系統部署對於機房環境的要求。