如果還有人想在AI處理領域跟英偉達正面抗衡,那最好再多做幾手準備。除了最強大的技術儲備之外,大家可能還需要雄厚的資金支持和上天的意外眷顧。換句話說,如今壓制英偉達的唯一可能性恐怕只有天降神跡。
日前在聖何塞舉行的2024年GPU技術大會上公布的英偉達「Blackwell」GPU,是這家計算引擎製造商推出的第七代、也是最令人印象深刻的數據中心級GPU。GPU計算浪潮始於2000年代中期,並隨著2012年5月「Kepler」K10與K20加速器的推出而變得愈發清晰具體。
從那時起,英偉達就一直不懈推動摩爾定律在電晶體、先進封裝、增強向量與矩陣數學引擎設計、持續降低浮點運算精度以及增加內存容量/帶寬等多個方面的進步,最終讓自家的計算引擎實現了4367倍的恐怖提速。就原始浮點性能而言,與十幾年前帶有雙GK104 GPU的初版K10相比,Blackwell確實帶來了4367倍的性能增長(其中有8倍源自FP32單精度降至FP4八精度浮點運算,在恆定精度條件下的晶片性能增益為546倍)。
隨著NVLink網路的進步,超大規模基礎設施運營商、雲服務商、高性能計算(HPC)中心以及其他機構可以將數百個GPU的內存與計算資源緊密結合在一起。而隨著InfiniBand和以太網網路的發展,數以萬計的GPU則能夠鬆散地捆綁在一起以建立功能極其強大的AI超級電腦,從而更快地運行HPC與數據分析工作負載。
「Blackwell」B100與B200 GPU加速器分別較2022年和2023年推出的前代「Hopper」H100與H200 GPU快多少,目前仍有待觀察。本文撰寫於英偉達聯合創始人兼CEO黃仁勛發表的主題演講之前,因此許多架構及性能細節尚未明確披露。我們將針對搭載Blackwell GPU的系統帶來後續報道,並對這款全新GPU的架構和經濟性開展深入研究,將其與英偉達自家的前代產品,以及AMD、英特爾及其他廠商的計算引擎進行比較。
AI正在架構層面牢牢占據主導地位
如果說HPC領域對於更高浮點性能與更低能耗的需求,推動了英偉達的初始計算設計。那麼自2016年「Pascal」一代添加半精度FP16單元以及隨後的張量核心矩陣數學單元以來,機器學習開始為GPU巨頭定下新的發展基調。短短一年之後的2017年,以深度學習神經網路為代表的機器學習工作負載成為英偉達的架構選擇依據,並在「Volta」這代GPU上將這種思路奉為圭臬。
隨著Hopper乃至最新這代Blackwell計算引擎的出爐,面向生成式AI的大語言模型則進一步推動架構的發展,強調不斷壓縮更大規模AI訓練與推理工作負載的處理成本。
英偉達公司超大規模與HPC副總裁Ian Buck在大會前的簡報中解釋道,「在過去的2023年,我們經歷了多模態生成式AI的誕生,文本到圖像、圖像到文本、音頻到3D模型等——而且不止於人類可讀模態,氣候、DNA、分子、蛋白質與藥物發現等科學領域也有AI的身影。在此過程中,一種新型AI正在出現。這類模型更加智能,它不再是以孤立的模型形式存在,而開始成為AI模型集合,即混合專家模型——其中的代表包括谷歌Gemini、Meta NLLB、Mistarl AI,當然還有如雷貫耳的OpenAI GPT-4。這些新模型實際上包含多個協同運行的AI模型。在transformers的每一層,它們都會共享資訊以決定誰能為下一層提供最佳答案,由此構建的模型也在智能度方面更上一層樓。這使得AI得以進一步擴展至萬億參數級別,帶來我們前所未見的規模與性能表現。當然,這也給計算帶來了新的挑戰。隨著模型體量變得越來越大,訓練過程需要消耗更多算力。此外,推理也開始成為挑戰中越來越重要的組成部分。」
而Blackwell正以各種形式站上歷史的舞台,希望以全面超越Hopper的方式從容應對這所有挑戰。
(第七代GPU計算引擎以David Blackwell命名,他是美國國家科學院院士、加州大學伯克利分校前教授,研究領域包括博弈論、資訊論以及概率與統計。)
Blackwell GPU擁有2080億個電晶體,採用台積電4納米工藝的改良版本4NP進行製造——即英偉達用於製造Hopper GPU的定製化4N工藝的改進形式。Blackwell GPU實際上由雙reticle GPU晶片組成,其各自包含1040億個電晶體,並使用NVLink 5.0互連沿晶片中央像拉鏈般將二者連接起來。
由於台積電的3N 3納米工藝仍存在明顯問題,因此英偉達暫時無法使用這種最新製程,所以Blackwell晶片的尺寸和發熱量可能仍停留在較高水平。此外,Blackwell GPU的時鐘速率也許亦未達到理論最佳值。但每塊Blackwell晶片的浮點性能仍將比Hopper晶片高出25%左右,再加上每個封裝中包含兩塊GPU,因此總性能將提升至2.5倍。降至FP4八精度浮點運算還可將性能再次翻倍,使其原始性能提升至Hopper的5倍。實際處理工作負載時的性能可能會更高,具體取決於各個Blackwell版本上的內存容量與帶寬配置。
Buck解釋稱,Blackwell GPU計劃於今年晚些時候投放市場,而且這款最新產品的實現依託於六大核心技術:
兩塊Blackwell晶片通過10 TB/秒NVLink 5.0晶片到晶片鏈路實現互連,簡稱為NV-HBI(全稱可能是高帶寬互連)。更重要的是,Buck確認這兩塊晶片在軟體中將以單一GPU的形式存在,而絕非像英偉達及競爭對手AMD此前發布的GPU那樣彼此獨立。
這一點非常重要,因為如果一塊GPU能夠以單一單元形式存在,那麼在編程時就可將其視為整體。而如果網路能夠將其作為整體直接訪問,也就意味著其在集群內可以靈活擴展。相比之下,彼此獨立的兩塊GPU在集群擴展方面則比較麻煩(具體性能損失取決於網路與各晶片間的通信方式,而且在最極端的情況下,可能導致集群算力減少一半)。
我們對B100和B200設備的具體饋送及速度參數了解不多,但目前可以確定的是高端Blackwell晶片的所有功能均已開啟(但不確定是否所有B200版本均提供全功能),配備192 GB HBM3E內存,在封裝內對應每個Blackwell晶片上四個8-Hi堆棧。如果我們認真觀察,就會發現它實際上分八個計算複合體被封裝在兩塊晶片中,每個晶片對應一組HBM3E內存。而根據此前媒體的報道,這192 GB內存將由SK海力士與美光科技提供,其綜合內存帶寬可達8 TB/秒。
2022年推出的H100在5個堆棧間提供80 GB內存容量與3.35 TB/秒帶寬;升級版H100則與同樣由英偉達製造的「Grace」CG100 Arm伺服器處理器搭配,共包含6個內存堆棧,容量和傳輸帶寬分別為96 GB及3.9 TB/秒。從比較樂觀的角度比較,高端Blackwell與普版H100相比實現了內存與傳輸帶寬的雙重2.4倍提升。而如果與開啟全內存容量模式的中端H100比較,那麼英偉達計劃於今年推出的高端Blackwell內存容量提升至2倍,傳輸帶寬則略高於2倍。至於跟擁有141 GB HBM3E內存與4.8 TB/秒帶寬的H200進行比較,那麼高端Blackwell的內存容量只高出36.2%,但傳輸帶寬倒是高出66.7%。
我們猜測,英偉達有可能採用4 GB HBM3E內存並採用8-Hi堆棧,也就是說8個內存堆棧中只實際啟用6個即可達到192 GB容量。由此推測,Blackwell封裝實際可以提升至256 GB HBM3E內存容量與13.3 TB/秒傳輸帶寬。這種理論上限可能同時適用於B100和B200,也可能單純適用於B200。英偉達目前尚未給出說明,我們將繼續拭目以待。
Blackwell複合體還配備有NVLink 5.0埠,能夠提供1.8 TB/秒的傳輸帶寬,相當於Hopper GPU上NVLink 4.0埠的兩倍。
與英偉達近期推出的所有GPU計算引擎一樣,其性能提升不僅僅靠在晶片中完稿更多的觸發器和內存空間來實現。英偉達還對晶片架構進行了優化,旨在適應特定的工作負載。以Hopper為例,我們看到了Transformer Engine的第一次疊代,能夠為張量提供自適應精度範圍以加快計算速度。Blackwell則帶來改進後的第二代Transformer Engine,能夠在張量之內進行更細粒度的精度縮放。Buck解釋道,正是這項功能實現了FP4性能,其主要用於提高生成式AI推理工作負載的吞吐量,從而降低這類當紅負載類型的處理成本。
Buck指出,「Transformer引擎最初是由Hopper所發明,作用是在計算過程中跟蹤整個神經網路中各張量的每個層上的準確性與動態範圍。隨著模型訓練進度的不斷推進,我們會持續監控每個層的範圍,並隨時調整以保持其數值精度處於合理範圍之內,藉此獲取最佳性能。在Hopper當中,這種跟蹤調整最高可擴展至1000路記錄,計算更新及縮放因子來保證整個計算令以8位精度執行。而在Blackwell架構中,我們又更進一步在硬體層面調整每個張量的縮放比例。不同於以往的整個張量,Blackwell現可支持微張量縮放,我們不僅可以監控整個張量,更能夠查看張量內的各個元素。不止於此,Blackwell的第二代Transformer Engine還允許我們將AI計算帶入FP4精度,即僅使用四位浮點表示來執行AI計算。每個神經元、每條連接都只用4個0和1表示——因此可以表示數字1到16。達到這種細粒度水平本身就堪稱奇蹟。第二代Transformer Engine與Blackwell微張量縮放相結合,意味著我們可以提供兩倍於以往的算力,而且8位到4位的成功減半也讓我們的有效帶寬得以加倍。如此一來,單個GPU也能容納雙倍於以往規模的模型。」
英偉達方面並沒有公布Blackwell晶片上32位與64位CUDA核心的具體性能,也沒有討論更高精度數學如何在該晶片的張量核心上享受性能優勢。期待這些問題的答案能夠在本屆大會上一一揭曉。
目前可以明確的是,B100的峰值FP4性能為14千萬億次,且採用與前代H100相同的700瓦熱功率設計。B200的FP4性能則為18千萬億次,功率為100瓦。Buck還私下告訴我們,即將推出的GB200 NVL72系統將為GPU提供液冷支持,其運行功率為1200瓦。據推測,液冷應該能夠在同等功率下提供更高的性能輸出。
英偉達也未公布B100、B200或者其HGX B100系統板的定價。這些系統板能夠直接插入現有HGX H100伺服器,這是因為二者的發熱量和功率相同,因此配備的散熱裝置也沒有區別。我們預計與HGX H100相比,HGX B100的價格至少會高出25%。粗略計算,在同等運算精度之下,HGX B100的價格約在25萬美元,性能約為H100的2.5倍。當然,考慮到當初Hopper GPU的情況,市面上的實際售價恐怕會遠遠高於英偉達的官方指導價。
在後續報道中,我們將具體探討Blackwell系統以及NVLink Switch 4與NVLink 5埠,敬請期待!