如果情況真如英偉達及其他眾多科技企業預料的那樣,即大語言模型會成為新的編程模型基礎,那麼混合CPU-GPU計算引擎就將是新的通用計算平台。
多年以來,英偉達一直為其他廠商提供高端SXM流多處理器模塊或PCI-Express卡,用以構建此類混合設備。而如今憑藉著最新的GH200超級晶片,也就是把基於Arm架構的「Grace」CPU同基於第六代GPU計算引擎的「Hopper」GPU相結合,英偉達正在AI基礎設施領域迎頭趕上,努力打造出適合運行超大規模AI推理與訓練工作負載的整體系統。
儘管英偉達從今年5月起就一直在批量銷售其Grace-Hopper超級晶片,同時完成了對僅可接入Hopper GPU板的HGX形制伺服器和可混合接入Grace及/或Hopper晶片的MGX形制伺服器的標準化。但目前最炙手可熱的行業新貴,則是英偉達最近在Siggraph 2023會議上剛剛宣布的第二代GH200超級晶片。
在第二代GH200超級晶片上,所使用的Grace CPU及Hopper GPU與上一代完全相同。其中Grace晶片基於Arm公司的「Demeter」Neroverse Arm V2核心。三年前英偉達曾試圖以400億美元收購Arm,如今後者剛剛再次申請上市。初代Hopper SXM5 GPU計算引擎配備80 GB HBM3內存和3.35 TB/秒的內存帶寬。去年Hopper GPU剛剛推出時,這款SXM5設備共搭載6個HBM3內存棧,但基點只有5個處於活動狀態(我們懷疑是出於良品率的考慮),所以實際容量僅為80 GB——而非大家預期的96 GB。PCI-Express版本的Hopper擁有8個HBM3內存棧,其中同樣只有5個能夠工作,且內存帶寬也僅為2 TB/秒(可能是為了降低耗電和發熱量而在刻意控制時鐘速率)。
而在Grace-Hopper SXM5超級晶片(正式名稱為GH200)剛發布時,英偉達終於成功啟用了全部6個內存棧,讓Hopper GPU獲得了96 GB內存和4 TB/秒的內存帶寬。到了第二代GH200超級晶片這邊,英偉達開始將這款計算複合體中的Hopper部分升級為HBM3e內存,此舉令容量提高至141 GB,帶寬則提高至5 TB/秒。與去年發布的初代Hooper SXM5設備相比,新版本的內存容量增加了76.3%,內存帶寬也上升了49.3%。
英偉達超大規模與高性能計算(HPC)總經理Ian Buck在採訪中表示,此番內存升級就是把HBM3換成了HBM3e。Hopper GPU在設計之初就考慮到對速度更快、容量密度更高的HBM3e內存的支持需求,因此可以交叉兼容並對接這些內存技術。我們初步判斷此番容量和帶寬提升並非源自HBM技術棧中內存晶片數量的增加,畢竟除非對Hopper SXM5封裝進行重新設計,否則內存棧數量應該無法超過6個。
Buck並未提及第二代GH200超級晶片中的HBM3e內存來自哪家供應商,但三星、SK海力士和美光科技都在開發HBM3e內存。所以理論上講,其中任何一家都可以為改進後的超級晶片負責內存供應,畢竟二代GH200今年年底才開始提供樣品、明年第二季度正式出貨,準備時間還算充裕。而且Buck證實英偉達擁有多家HBM內存供應商。考慮到這種材料的製造成本和製造難度都比常規DRAM要高,所以英偉達的「狡兔三窟」策略非常明智。據我們了解,為了提高製造供應,所有三家供應商都在為英偉達的GPU引擎提供HBM3e內存。
當我們問到常規Hopper SXM5和Hopper PCI-Expres卡何時迎來HBM3e升級時,Buck對這個問題保持沉默。此外,當我們提到 Grace CPU中的LPDDR5內存在升級後也能增加內存容量和傳輸帶寬時,Buck同樣表現出職業精神、不對尚未發布產品說得太多。
英偉達尚未公布任何關於Hopper或Grace-Hopper計算引擎的定價,也未提到是否會按原本定價交付這波內存容量和內存性能都有提升的二代產品(我們嚴重懷疑這不太可能)。但Buck明確表示,英偉達預計之前在採購Grace-Hopper超級晶片的系統製造商將「很快」轉向第二代產品。
對於長期受到內存容量和內存帶寬限制的HPC和AI應用程序,HBM3e內存的加入將極大提升這類用例的性能水平。
Buck在談到下一代GH200時稱,「我預計以往受到帶寬限制的應用將實現近1.5倍的性能提升。當然,也不是在所有場景下都能達到這樣的增幅,但大致也是在這個區間。另外內存容量也有增加,意味著大家可以在單一GPU上運行體量更大的模型。而且現在通過CPU-GPU的組合,大家實際擁有近700 GB的組合內存,就是說單一GPU能處理的負載更多了。對於那些用不著兩個GPU共同運行的模型,其性能肯定會節節攀升。」
這是Siggraph會議帶來的第一份公告。第二條新聞,則是英偉達推出了一款雙插槽Grace-Hopper超級晶片,該晶片搭載900 GB/秒的直連NVlink埠,可相互對接以形成內存共享複合體,共包含2個Grace CPU和2個Hopper GPU。這實際上就形成了機器間的四路鏈接,跟傳統上的四路CPU系統基本相同,其中每台設備都能與複合體中任意其他設備的內存進行通信。如果願意,大家也可以稱其為「非對稱NUMA」。
英偉達公司聯合創始人兼CEO黃仁勛在Siggraph大會的主題演講中解釋道,「它基本上是把一塊巨大的GPU和一塊巨大的CPU,轉化成一塊巨大的超級晶片。其中的CPU現在擁有144個核心,GPU擁有10 TB/秒的幀緩衝帶寬和282 GB的HBM3e內存。很明顯,大家幾乎能把自己選擇的任何大語言模型直接塞進去,而它則瘋狂執行推理運算。大語言模型的推理成本將因此顯著降低,要知道這可是台非常小巧的計算設備。您可以將其擴展至世界各地的數據中心,可以將其接入以太網,也可以將其與InfiniBand相對接。」
降低推理成本這一點非常關鍵,因為當我們必須在執行訓練的相同機器上進行推理時,那麼除非能把訓練成本也降低到跟推理持平的狀態,否則開銷將太過高昂。當然,與採用Hopper SXM5單元、各單元通過NVSwitch結構互連的八路GPU複合體DGX H100伺服器相比,英偉達這套Grace-Hopper方案具體能省多少錢仍有待觀察。
成本節約效果,實際上取決於Grace CPU能比英特爾或AMD的x86處理器便宜多少。我們覺得後者雖然價格更高,但也能支撐起更大的CPU內存空間和閃存存儲容量,類似於DGX H100伺服器及其HGX版本。再聯想到可以用NVSwitch互連結構將最多256個GPU構建成MGX Grace-Hopper集群,並採用InfiniBand將多個Pod交叉耦合成一個超級Pod。這樣一個擁有256 GPU的Grace-Hopper超級Pod,應該就有能力跟採用英特爾「Sapphire Rapids」至強SP CPU、配備同樣256個Hopper GPU並依靠NVSwitch實現節點間互連的Hopper DGX H100超級Pod正面抗衡了,最終究竟誰更勝一籌著實令人期待。不過考慮到第二代Grace-Hopper GH200擁有高於GH100 SXM5的內存容量和內存帶寬,結果大概率會是「一代新人勝舊人」。
但如果GH100 SXM5也升級為141 GB容量加5 TB/秒的HBM3e技術棧,那勝負恐怕還未可知,具體要取決於AI訓練/推理工作負載的性能、及其對內存/網路層次結構的適配效果。