宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

2024年03月21日 首頁 » 熱門科技

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

相信很多朋友跟我們一樣,都對數據中心計算引擎抱有濃厚興趣。但真正發揮作用的其實是整體平台——如何將計算、存儲、網路和系統軟體有機結合起來,構建起一套用於應用構建的可用平台。

要想正確理解英偉達Blackwell平台,我們先要從歷史背景入手。下面請大家喝杯咖啡、振作精神,共同開啟這段探索之旅。

2016年4月,英偉達推出了自主開發的DGX-1系統,由此正式從組件供應商轉變為平台製造商。DGX-1系統是基於英偉達「Pascal」P100 GPU加速器與NVLink埠的混合cube mesh,將8個GPU耦合至一套實質上的NUMA共享內存集群中。英偉達公司聯合創始人兼CEO黃仁勛在GTC 2024大會的開幕主題演講中再次強調,首套DGX-1系統是由公司高層親筆簽名,並由黃仁勛本人交付給Sam Altman的。如今的Sam Altman當然無人不知、無人不曉,可當時的他剛剛於四個月前建立AI初創公司OpenAI。

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

到了「Volta」V100這一代GPU,搭載新引擎的DGX-1於2017年5月推出,在設計上與前代基本一致。而且相較於CUDAQ核心在FP32和FP64運算上41.5%的性能提升,特別是在憑藉張量核心這一全新設計在半精度FP16數學運算上高達5.7倍的性能提升,新一代DGX-1的官方指導價(沒錯,那時候英偉達GPU還在按指導價銷售)僅上漲了15.5%。也就是說按同等價格計算,該系統在半精度運算上的性能增長了79.6%。這代DGX-1系統還提供用於AI推理的INT8運算支持。

之後,AI領域可謂風雲突變,英偉達的平台架構也隨之變得愈發「瘋狂」。

2018年5月,英偉達開始在其V100 SXM3當中引入完整的32 GB HBM2,全面超越V100 SXM2的16 GB容量。此外,英偉達研究部門也一舉解決了內存原子交換難題,由此發展出的商業化產品就是我們如今熟悉的NVSwitch。到這裡,DGX-2平台時代正式來臨。

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

12個NVSwitch ASIC可驅動300 GB/秒內存埠,總雙向帶寬可達4.8 TB/秒,用於交叉耦合共16個V100 GPU;此外還有一組6個PCI-Express 4.0交換機,用於連接兩塊英特爾至強SP Platinum處理器和接入該GPU計算複合體的8個100 Gb/秒InfiniBand網路接口。DGX-2系統擁有1.5 TB主內存和30 TB閃存,單個節點的價格更是達到驚人的39.9萬美元。

但世事就是如此。得益於內存和NVSwitch的進一步擴展,DGX-2系統的性能提高了一倍有餘,這正是AI初創公司們所迫切需要的。而與此同時,英偉達決定將設備的性價比降低28%,藉此擴大自己的利潤空間。於是技術雖然進步了,但從性價比層面看,新的AI節點並沒有較上一代有所優化。

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

到了「Ampere」一代GPU的出現,我們迎來了DGX A100系統。該系統於2020年5月新冠疫情期間推出,Ampere GPU上的NVLink 3.0埠實現了傳輸帶寬倍增,現在達到600 GB/秒,因此六個DGX A100系統中的NVSwitch ASIC必須進行聚合,從而組合出相同的600 GB/秒速率。這也意味著將NVLink內存集群的大小由16個減少至8個。

DGX A100擁有八個A100 GPU,兩塊AMD「Rome」Epyc 7002處理器、1 TB主內存、15 TB閃存以及9個Mellanox ConnectX-6接口(1個用於管理,8個用於GPU),並繼續通過PCI-Express 4.0交換機複合體實現CPU和NIC與GPU複合體之間的連接。這時候,英偉達還剛剛完成了對InfiniBand和以太網互連製造商Mellanox Technologies價值69億美元的收購,因此開始使用InfiniBand互連來構建在當時看來體量龐大的集群,嘗試把成百上千的A100系統對接起來。最初的SuperPOD A100包含140個DGX A100系統,其中由1120個A100 GPU和170個HDR InfiniBand交換機將這麼多DGX A100節點粘合起來,實現了總計280 TB/秒的聚合雙向帶寬,且FP16 AI工作負載總和算力也達到近700千萬億次。

隨著2022年3月「Hopper」H100這一代GPU加速器的推出,浮點運算精度繼續減半至FP8,GPU本體更加強大,開始搭配更大的內存。與此同時,「Grace」CG100 Arm伺服器CPU被納入堆棧,一同帶來的還有容量達480 GB、傳輸帶寬為512 GB/秒的LPDDR5內存,保證能以超過600 GB/秒的連續帶寬經NVLink實現對Hopper GPU複合體的訪問。

下圖所示,為英偉達DGX H100系統中使用的HGX GPU複合體:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

Hopper GPU上使用的NVLink 4.0埠能提供900 GB/秒的傳輸帶寬,且NVSwitch ASIC必須通過升級才能在包含8個H100 GPU的複合體中提供符合需求的帶寬。這項性能指標最終通過四個雙晶片NVSwitch 3 ASIC得以完成,對應以上渲染圖中位於最前方的部分。

憑藉著NVSwitch 3 ASIC,英偉達將SHARP網路內計算算法和電路從InfiniBand交換機移植到了NVSwitch 3 ASIC,使其能夠在網路中(而非DGX節點GPU或ConnextX-7 SmartNIC上)執行某些聚合和歸約操作。如此一來,包括全部歸約、全對全、一對多在內的多種操作自然也歸該網路處理。

目前仍有眾多客戶使用的DGX H100 SuperPOD示意圖:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

該設備在FP8精度下的額定性能為1百億億次,SHARP網路內處理能力則為192千萬億次。SuperPOD複合體中共有256個GPU以及20 TB的HBM3內存。對於正在開展部署實驗的朋友們來說,有一種方法可以將外部NVSwitch 3交換機組成互連來建立共享內存GPU複合體,藉此在SuperPOD中的全部256個GPU之間建立一致連接。在我們的測試中,與DGX A100 SuperPOD相比,採用NVSwitch互連的DGX H100 SuperPOD的千萬億次性能密度可達前者的6.4倍;更重要的是,在57600 GB/秒的速率下,其對分帶寬可達A100集群的9倍。

雖然包括英偉達在內,還沒有人在實際部署這套基於NVswitch的完整DGX H100 SuperPOD,但這無疑為Blackwell的登場奠定了基礎。

於是,我們最終迎來了時代的又一位驕子、AI領域的「唯一真神」Blackwell:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

Blackwell平台以HGX B100和HGX B200 GPU計算複合體為基礎,這些計算複合體將被部署在DGX B100與DGX B200系統之內,並搭載風冷版本的Blackwell低速GPU版本。

而完整版Blackwell GB100 GPU則僅用於搭建GB200 Grace-Blackwell SuperPOD,其將單塊Grace CPU與兩個Blackwell GPU匹配,並配合NVSwitch連接建立起GB200 NVL72系統。顧名思義,該系統通過NVSwitch 4互連將72個Blackwell GPU連接起來。這套改進後的互連繫統能夠擴展至576個GPU,其理論「橫向擴展」極限可達兩年前討論的NVSwitch連接DGX H100 SuperPOD的2.25倍。

也就是說,配備72上Blackwell GPU的機架本身構成一種新型性能單元,它將取代使用H100或H200,甚至是B100或B200 GPU的八CPU節點。但各位不必擔心,大家完全可以從OEM和ODM廠商處買到這類DGX伺服器及其克隆方案,而OEM和ODM又是從英偉達處買來的HGX GPU複合體。

下表所示,為HGX B100和HGX B200及其B100和B200 GPU的性能參數,具體數字取自英偉達公司發布的Blackwell架構技術簡介:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

表中不同精度及數據格式下的吞吐量數字,均為開啟稀疏性後的結果;但其中FP64吞吐量除外(FP64吞吐量為關閉稀疏性下的結果)。

我們很快注意到,所有數據都是由張量核心運行得出,而非由CUDA核心運行得出。這並不一定代表Blackwell架構中就沒有CUDA核心,可奇怪的是,表中確實沒有任何體現——而且如果真的取消了CUDA,那就更有趣了。(我們猜測很可能是取消了。)

另一個值得關注的重點,就是內存容量和內存帶寬部分都用了「高達」的表述,也就是「不超過」的意思。所以如果今年晚些時候B100和B200正式上市後,其HBM3E內存容量低於192 GB、帶寬低於8 TB/秒,也請大家不要太過驚訝。如果英偉達能夠獲得良品率和供應量都很充足的HBM3E內存,那當然是再好不過。但很明顯英偉達希望把帶寬和容量最高的HBM3E留給GB200系統,該系統將Grace CPU與兩塊Blackwell B200 GPU結合起來,每個GPU的全力運行效率為1200瓦,因此在Blackwell的雙晶片GPU複合體中能提供20千萬億次的FP4精度持續性能。

HGX B100 GPU複合體中使用的B100與GHX H100 GPU複合體中的H100擁有相同的運行功率,因此專為前代Hopper H100 SXM5 GPU設計的系統也可直接插入Blackwell B100 SXM6模塊,該模塊在FP4精度下擁有14千萬億次算力、FP8精度為7千萬億次。同樣在FP8精度下,與Hopper晶片相比,每塊Blackwell晶片的吞吐量提高至1.8倍;在雙晶片配置下,FP8性能提高至3.6倍。從這樣的結果來看,我們有理由猜測Blackwell晶片上的張量核心很可能是Hopper晶片的2倍。

HGX B200 GPU複合體中使用的B200的運行溫度提高了42.9%,在雙晶片配置下每插槽可提供18千萬億次的FP4精度算力。而無論B200的運行速度如何,每個Blackwell晶片在FP8精度且開啟稀疏性的條件下均具有9千萬億次算力,相當於H100晶片的2.25倍;考慮到雙晶片設計,對應每插槽性能提高至4.5倍。

這是塊巨大的GPU

HGX B100和HGX B200系統還迎來了全新組件,也就是NVLink 5埠和NVLink Switch 4 ASIC,負責與GPU埠進行通信。二者都能以100 Gb/秒的速率在單通道上傳輸信號,並採用PAM-4編碼(每信號攜帶2 bit),因此每通道的有效帶寬可達到200 Gb/秒。再通過多通道間的大規模聚合,即可藉助B100和B200 GPU複合體上的埠向NVLink Switch 4(也可以簡稱為NVSwitch 4)ASIC提供1.8 TB/秒的雙向傳輸帶寬。該NVSwitch 4 ASIC擁有7.2 TB/秒的總和帶寬,因此可以驅動四個1.8 TB/秒的NVLink埠(每個埠擁有72條以200 Gb/秒速率運行的通道,相當令人難以置信)。

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

該ASIC上的SerDes共驅動72個以200 Gb/秒速度運行的埠,這些埠與新款InfiniBand Quantum-X800(原Quantum-3)中使用的Serdes相同,後者擁有115.2 Tb/秒的總和帶寬並可驅動以800 Gb/秒速度運行的總計144個埠。

下面來看NVLink Switch 4晶片的放大圖:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

這款晶片擁有500億個電晶體,採用與Blackwell GPU相同的台積電4NP製程工藝。

新款NVLink Switch擁有3.5造成千萬億次的SHARP v4網路內算力,用於在交換器內部執行聚合操作,從而提高GPU集群的效率。對於某些以並行計算形式完成的聚合操作,特別是需要計算平均權重並在計算中間階段傳遞這些權重的任務,最好能在位於所連接節點的本地中心上的網路內執行。

有趣的是,NVLink Switch 4 ASIC能夠跨128個GPU提供機密計算域,而且最多可以跨越576個GPU擴展NVLink的相干內存結構——後者規模相當於NVLink Switch 3 ASIC中256 GPU理論內存結構的2.25倍。英偉達超大規模與HPC業務總經理Ian Buck提醒我們,NVLink Switch 3中256個GPU的理論上限只適用於研究,對實際生產無甚影響;同樣的,NVLink Switch 4中576個GPU的理論上限同樣只適用於研究,實際生產不可能觸及。

但這一次,在我們即將介紹的GB200 NVL72系統當中,72個以緊密耦合方式共享內存的GPU將共同作為新的計算單元,類似於當初搭載HGX GPU複合體及NVSwitch互連的DGX系統產品線上的8或16個GPU配置。曾經的節點現在變成了完整的機架,所以我們可能真的要考慮觸頂的可能性了。

下面來看機架中的各組件:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

GPU與CPU數量比為2:1,表明AI主機並不需要太過強大的Grace CPU,甚至不需要像用於推薦引擎的系統那樣匹配LPDDR5內存。Graec只提供一個600 GB/秒NVLink 4.0埠,且埠一分為二分別以300 GB/秒的速度對接兩塊Blackwell B200 GPU。這遠遠超出了PCI-Express的能力,實際上我們要到明年年初才能迎來256 GB/秒的PCI-Express 6.0 x16插槽。英偉達今年在NVLink 5.0埠上實現的1.8 TB/秒帶寬將一路閒置至2032年左右,屆時PCI-Express 9.0 x16插槽才會以2 TB/秒的帶寬助其實際落地。

下面來看Grace-Blackwell超級晶片的放大圖:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

DGX GB200 NVL72機架系統如下圖所示:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

圖左為機架正面,右側為機架背面,可以看到接有大量線纜。

該機架屬於全新計算單元,原因非常簡單:在這些NVLink交換器提供的帶寬支持下,機架內各組件間仍可通過銅線直連,而無需經由重新定時器、光纖收發器和光纖線纜。而一旦跨越多個機架就必須採用光學通信器件,這肯定會增加額外的成本與發熱量。這也是系統架構設計中一直需要努力避免的問題。

英偉達聯合創始人兼CEO黃仁勛在對Blackwell機架規模設計進行拆解時解釋道,「之所以能夠在機架內實現互連,答案主要體現在背面,也就是DGX NVLink主幹和與之對接的130 TB/秒總帶寬——這已經超過了網際網路的總帶寬,相當於我們可以在一秒之內將所有網路內容發送給每個人。這裡我們共布設有5000根NVLink線纜,總長達兩英里。這種直連設計堪稱奇蹟,因為如果轉而使用光學器件,那就必須藉助收發器和重新定時器,單是這二者本身就要耗費20千瓦功率(單收發器功率為2千瓦)來驅動NVLink主幹。而藉助NVLink Switch,我們以零功耗方式成功達成了目標,順利節約下20千瓦的計算用電量。考慮到整台機架的功率也只有120千瓦,這2千瓦的差異無疑相當顯著。」

Buck還提到,銅纜與光纖網路鏈路的混合成本,相當於純NVLink交換器架構成本的6倍。也正因為如此,我們猜測72 GPU以上的架構仍只停留在研究階段,還遠無法實際生產。估計此類規模的機架無法單純依賴NVLink 交換器,而需要藉助InfiniBand或者以太網互連,當然前提是客戶擁有充足的供電、冷卻和光學通信器件資源。

紙面數據不錯,實際表現如何?

Blackwell高端平台中採用的這種機架級方法,其實在英偉達與亞馬遜雲科技共同構建的「Ceiba」超級電腦中就已有所體現。這台Ceiba機器基於DGX GH200 NVL32,顧名思義就是基於NVLink Switch 3互連的機架級設計,將32個Grace-Hopper CPU-GPU超級晶片互連起來以形成統一的共享計算複合體。其中有9個NVSwitch系統負責將這些計算引擎彼此互連,並提供128 千萬億次算力、20 TB總內存(其中4.5 TB為HBM3E,提供157 TB/秒的聚合內存帶寬),且全部由聚合帶寬為57.6 TB/秒的NVLink鏈路承載。

而此次公布的Blackwell GB200 NVL72,將把Ceiba系統提升到又一個前所未有的新層次。

前文圖表列出了GB200 NVL72與DGX H100之間的倍數關係,但這一切只是紙面結論,實際性能還須落在實處。

根據黃仁勛在主題演講中的表述,真正值得比較的是二者在OpenAI 1.8萬億參數GPT-4混合專家大模型的訓練表現。在基於Hopper H100 GPU的SuperPOD集群上,在節點外部使用InfiniBand互連、在節點內部使用NVLink 3,則整個訓練任務需要8000個GPU在90天內耗費15兆瓦電量才能完成。而如果在同樣的90天周期內通過GB200 NVL72運行同一訓練任務,則只需要2000個GPU和4兆瓦電量。如果使用6000個Blackwell B200 GPU的話,則訓練任務只需要30天和12兆瓦電量。

Buck具體解釋稱,兩套架構的差異不止體現在算力上,而是I/O與算力的綜合體現。對於這些混合專家模塊,新架構能夠對更多個層進行並行處理,同時在各層之間實現內部通信。這種數據並行性(將數據集拆分成塊,並將計算任務分別委派給各GPU)正是HPC與早期AI計算的標誌性負載。此外還有張量並行性(跨多個張量核心拆分給定計算矩陣)與管線並行性(將神經網路處理層分派至各GPU,通過並行處理以加快速度)。現如今,我們又迎來了模型並行性,即同時在一組混合專家模型上執行訓練和推理,看哪個最擅長給定高質量響應。

但更讓人頭痛的是,由於模型並行性負載太過複雜,我們可能還需要單獨的AI模型來跟蹤這一切……Buck表示,為了在GB200 NVL72集群上找到正確的GPT-4並行訓練配置,英偉達前後進行了2600多次實驗,希望確定硬體構建和模型拆分切片的正確方法,保證其儘可能保持高效運行。下面來看部分實驗的可視化圖形:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

黃仁勛在主題演講中解釋道,「所有這些藍點代表著對軟體的重新劃分,而優化目標就是弄清楚是否該使用張量並行、專家並行、管線並行或者數據並行,從而將這套巨大的模型分布在所有不同GPU上以提供持續穩定的理想性能。如果沒有英偉達GPU的可編程特性作為依託,這樣的探索根本就不可能實現。憑藉CUDA,也憑藉我們極大豐富的生態系統,英偉達能夠探索這一空間並最終找到圖中綠色的最優配置線。」

下圖所示的綠色脊線,代表Hopper與Blackwell在1.8萬億參數MPT-4混合專家模型(MOE)上的運行狀態。作為參考,圖中還列出一條紫色的Blackwell理論性能線,代表如果直接照搬Hopper系統中的NVLink Switch 3與400 Gb/秒InfiniBand混合方案,且不轉為新的Transformer Engine與FP4運算形式,其在FP8精度下的推理性能。由此得到的純粹是晶片直接升級的結果,完全無法體現系統的整體更新:

英偉達BLACKWELL系統如何「吃下」萬億級參數AI模型

可以看到,單純將Hopper替換為Blackwell並不是最好的答案。根據英偉達方面的解釋,只有在配合一系列正確舉措之後,推理性能提升至30倍、推理功耗降低至1/25的結果才有可能實現。

而達成這個目標需要多種因素的相互作用。如果在僅由16個Hopper級GPU(即兩個通過InfiniBand互連的HGX系統板)構成的集群上運行這套GPT-4混合專家模型,那麼由於需要跨並行層級執行聚合操作,該機器約有60%的運行時間被耗費在通信上,只有40%用於實際計算。而速度更快、帶寬更高的NVLink Switch互連能保證將更多時間投入到計算任務當中。

配合跨72上GPU的NVLink Switch互連,各個GPU間能夠以驚人的速度保持相互通信,甚至在必要時可以同時相互通信並快速完成對接。不僅如此,GB200節點中的每個節點都包含2個GPU,而非GH200節點中的每節點1個GPU。新系統中每個GPU配備的HBM3E內存容量也約為原先的2倍,帶寬也幾乎實現了倍增。在液冷版GB200 NVL72配置當中,兩個Blackwell插槽已經能在FP4精度下提供40千萬億次算力;而單一Hopper插槽在FP8精度下僅能提供4千萬億次算力。

可以明顯看到,網路與計算有著同等重要的性能意義。

順帶一提,每8個這種GB200 NVL72機架現可構成一個SuperPOD,大家可以通過800 Gb/秒InfiniBand或以太網將其互連起來;或者,也可以嘗試將半排機架中的全部576個GPU整體連接起來以建立規模更大的共享內存系統。雖然後者的網路成本可能會幾乎逼平計算成本,但考慮到576個GPU所提供的恐怖內存與計算域,這套方案也許將物有所值……畢竟幾年之後,可能一整行機架就代表一個新型節點。從目前的趨勢分析,具體時間可能就在兩年後。而進一步展望未來,也許整座數據中心都將成為新的單一節點。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新