AMD當前已成無可爭議的數據中心GPU性能王者

沒有什麼比出色的硬體更能激勵人們開發並調整軟體，藉此充分發揮其性能與功能優勢。猶記得首款「Antares」Instinct MI300系列GPU公布時的豪言壯語，AMD希望在生成式AI市場上與英偉達正面較量，並盡其所能通過MI300A和MI300X GPU加速器爭奪市場份額。

贊助商廣告

面對生成式AI這塊巨大的蛋糕，目前的頭號受益者當然就是英偉達——該市場對於計算引擎的需求增長速度已經超過了整個行業所能交付的極限，因此不僅業務規模可觀、利潤也是相當豐厚。換言之，英偉達之所以還沒有清晰感受到AMD MI300 GPU平台的衝擊和威脅，就是因為需求巨大而供應不足，所以雙方暫時還歲月靜好、相安無事。

從兩頭來看，這種激烈的競爭可能將被進一步推遲，因為未來一、兩年內AI訓練與大型推理加速器的需求恐怕會繼續超過供應。但好消息是，供應短缺將讓各類加速器架構都擁有自己的生存空間，各自在大語言模型和工具生態中占據一定比例，這對某些廠商來說也算是前所未有的寬鬆發展周期。不過隨著市場供應正常化，且所有大語言模型和深度推薦算法模型（DLRM）都經過軟體工程師的針對性調優之後，這場大洗牌早晚會到來並最終引發殘酷的價格戰。到那個時候，AI硬體市場的畸形輝煌也將歸於平靜。

但在此之前，各家加速器晶片廠商還將繼續馬力全開，無憂無慮地把自家產品在世界各地的超大規模基礎設施運營商、雲服務和HPC數據中心那邊賣上個好價格。而誰能在這段時間裡讓自己的技術獲得更高的滲透率，誰就能成功攤薄成本、為將來歸於正常的GPU市場和行業競爭做好充分準備。

封裝比晶片本身更重要

AMD在聖何塞召開的Advancing AI大會上公布了MI300產品家族，基本與英偉達、英特爾和其他AI加速器廠商的節奏保持一致。因此對於系統架構師和AI軟體開發者們來說，目前最值得關注的就是MI300的原始規格數據。從吞吐量和速度指標上看，由蘇姿豐團隊開發的「惡魔」MI300系統甚至還具有微弱優勢，在一定程度上壓倒了黃仁勛團隊打造的「地獄貓」H100系統。

贊助商廣告

其實這裡的「惡魔」和「地獄貓」並不是官方名稱，只是在拿汽車愛好者熟悉的道奇挑戰者肌肉車打比方。地獄貓是這部車子的高性能調教版本，而惡魔還要更極致一些。

從記憶體頻寬和原始算力來看，AMD的MI300X就是GPU版的「惡魔」，其擁有192 GB HBM記憶體、5.3 TB/秒記憶體頻寬和750瓦額定功率下的163.4萬億次FP64矩陣數學運算能力。而全新英偉達H200配備的則是141 GB HBM3e記憶體、4.8 TB/秒記憶體頻寬，在實際工作負載上的FP64矩陣性能可達上代H100的1.6到1.9倍，700瓦額定功率下的FP64性能則為66.9萬億次，只能算是略遜於「惡魔」的「地獄貓」。AMD MI300A擁有128 GB HBM3記憶體、5.3 TB/秒頻寬、760瓦額定功率下122.6萬億次FP64矩陣數學運算能力，基本對應挑戰者的SRT車型。至於英偉達的上代H100，配備80/96 GB HBM3記憶體、3.35 GB/秒頻寬、在700瓦額定功率下提供66.9萬億次FP64矩陣數學算力，相當於挑戰者R/T Turbo。我們毫不懷疑，當英偉達明年公布「Blackwell」數據中心GPU時，這款新品應該能夠實現全面反超。但AMD也不會坐以待斃，目前其MI400也已經在緊鑼密鼓的研發當中。

英偉達和AMD正在相互較勁，爭相打造更加令人難以置信的強大產品。兩家公司的市場份額則將由實際出貨的GPU數量決定，雙方也都會根據客戶關注的指標為其GPU性能指標制定相應的售價。

跟往常一樣，我們將通過三個切入點對MI300家族的更新做全面剖析。首先，我們將簡要討論新款AMD GPU加速器與其前幾代AMD硬體的比較。之後，我們會深入研究MI300設備的架構，最後再分別拿AMD MI300A跟英偉達GH200 Grace-Hopper混合設備、以及AMD MI300X同英偉達H100/H200加速器進行一番正面對壘。

根據AMD公司今年6月的爆料，MI300將提供兩個版本。其中MI300X是一款純GPU加速器，負責承擔基礎模型提出的高強度AI訓練與推理需求；而MI300A則是一款混合設備，將Epyc CPU與Instinct GPU納入同一封裝，且二者共享相同的HBM記憶體空間，從而為需要在CPU上運行串行代碼、並將結果交由GPU進行並行處理的負載帶來效率提升。

贊助商廣告

當時，AMD是拿MI300與MI250X進行性能比較並做出上述說明，這也讓我們對MI300A的性能和功耗產生了不切實際的判斷。下面來看AMD的表述原文：

「截至2022年6月7日，AMD性能實驗室對採用AMD CDNA™3 5納米FinFET製程工藝設計的AMD Instinct™MI300 APU（850瓦）加速器進行了性能測試，預計可實現2507萬億次FP8結構化稀疏浮點運算性能。」

當時看到這裡的850瓦數字，我們認為這代表著AMD對MI300A GPU進行了超頻，從而獲得與MI300X相當甚至更好的向量與矩陣數學性能，而MI300X的正常性能可能都達不到這樣的水平。但這也很合理，畢竟MI300A將先期入駐蘿倫斯利弗菲爾國家實驗室的「El Capitan」超級電腦，這台算力達2百億億水平的性能巨獸將基於HPE的百億億級「Shasta」Cray EX機器，全面採用液冷設計。但事實證明，MI300A上的GPU並沒有超頻，而且儘管HBM容量有所下降，憑藉相同的活動記憶體棧數量（與初代Hopper H100 GPU類似），其記憶體頻寬也完全沒有減少。只不過與MI300X相比，MI300A上的HBM記憶體棧更少——後者為每棧8晶片，而前者則為每棧12晶片。因此MI300A的計算性能低於我們的預期，但記憶體頻寬性能則比預期略好。

不過我們仍然期待El Capitan Turbo能夠對GPU做做超頻，畢竟這就是超級計算系統存在的意義——徹底榨乾硬體上的每一滴資源。換句話說，這些晶片在具有特定頻寬限制的工作負載上的有效性能，將主要由記憶體和原始算力所決定。

下面來看「Antares」MI300X與MI300A與之前AMD Instinct數據中心GPU之間的規格對比：

目前還不清楚MI300X和MI300A GPU的時鐘速率跟HBM3記憶體規格，但表內使用的預估數字應該都比較靠譜。

可以明顯看到，自MI25和MI50時代以來，AMD已經成功完成了一波大提升。畢竟曾經的數據中心GPU計算完全由英偉達所主導，而MI100讓AMD朝著正確方向邁出了第一步，MI200成為轉折點，而MI300則憑藉全面的技術儲備代表著AMD的真正崛起。另外可能從表中看不出來，AMD的小晶片方法和封裝也都大有進展，將2.5D晶片互連同台積電的CoWoS中介層相結合，成功把Mi300計算複合體跟HBM記憶體和3D計算塊（CPU加GPU）堆疊在了Infinity Cache 3D垂直緩存與I/O晶片之上。這種2.5D加3D的封裝模式被AMD稱為3.5D封裝。

贊助商廣告

我們將在後文的架構研究中深入討論封裝細節。在這裡，我們先來看看這兩款AMD計算引擎的算力、記憶體及I/O指標，並將其與上代產品做一一比較。我們將從全容量MI300X獨立加速器的算力部分開始：

MI300X配備有8個加速計算晶片（AMD稱之為XCD）。每個XCD包含40個計算單元，但暫時只開放其中36個計算單元以提高5納米小晶片的製造良品率。也就是說，AMD在設計中還潛藏著另外10%的性能空間，所以如果後續開始生產全容量版本，大家也完全不必感到驚訝。

按照整個理論設計方案，MI300X共擁有304個計算單元，其中19456個流核心負責執行向量數學運算，1216個矩陣核心負責執行矩陣數學運算。矩陣核心（大家更熟悉的稱呼可能是張量核心）支持2：4稀疏性，可將稀疏矩陣簡化為密集矩陣，從而實現吞吐量實際加倍的效果。向量引擎不支持稀疏性。從上表可以看到，MI300X支持所有必需的數據格式，MI300A也同樣支持這些格式。

在記憶體方面，每個MI300X計算單元配備32 KB的L1緩存，每個XCD中所有計算單元共享4 MB的L2緩存，再加上MI300X複合體中全部XCD共享的256 MB Infinity Cache。I/O晶片上連接著8個HBM3記憶體棧（採用雙控制器設計，每控制器對應4個I/O晶片），每對HBM3記憶體之間的小方塊僅起隔離作用，幫助降低MI300X複合體的製造難度。HBM3棧共分12個晶片，每晶片提供2 GB容量，因此總記憶體容量為192 GB、總頻寬則為5.6 TB/秒。

贊助商廣告

其中4個底層I/O晶片（AMD稱之為IOD）擁有7條Infinity Fabric鏈路，其組合峰值環頻寬為896 GB/秒，可將8個MI300X整合為單個共享記憶體虛擬GPU。整個複合體擁有一個PCI-Express 5.0 x16埠，用於連接外部網路和系統。總體來看，MI300X複合體中的聚合I/O頻寬可達1 TB/秒。

下面來看MI300X與上一代MI250X的比較結果：

可以看到，MI300X的性能可以達到1.7倍到3.4倍之間（FP32優化實現了性能倍增，而且MI300X的矩陣引擎還支持稀疏性），而主記憶體增加至1.5倍、頻寬增長至1.7倍、外部網路頻寬增加至2倍，而總運行功率則僅提升35.6%。

這就是我們說的工程改造。多位行業知名人士表示，封裝將是計算科學後續發展的新槓桿，而MI300X及其兄弟產品MI300A已經用實際成果證明了這一點。

在MI300A方面，AMD塞進了2個GPU晶片以及3個八核「Genoa」Epyc 9004晶片，由此構建起共享計算複合體。其中GPU和CPU均可尋址同一套記憶體，不必通過總線或者互連機制往來傳遞數據。

MI300X共擁有228個計算單元，6個XCD上共有14592個流核心和912個矩陣核心。該晶片組的額定功率為550瓦，使用MI300A電路板封裝後的額定功率為760瓦。

贊助商廣告

MI300A複合體的高速緩存與MI300X相同，但相較於後者的12個記憶體晶片，MI300A的HBM3記憶體棧僅有8個晶片，因此總記憶體容量只有128 GB。下調記憶體容量是為了抑制功耗、發熱量和成本，更好地滿足傳統HPC市場那敏感的預算要求。

MI300A上的I/O也與MI300X略有不同。其中配備4個Infinity Fabric鏈路，頻寬為512 GB/秒，另外4條鏈路的頻寬同樣為512 GB/秒，具體可以選擇4個PCI-Express 5.0 x16鏈路或者4條額外的Infinity Fabric鏈路。這種配置靈活性允許用戶對4個MI300A CPU-GPU複合體緊密耦合起來，也可以使用附帶的高通量管道獲取額外的I/O、或者壓縮I/O以容納更多GPU。

綜合來看，MI300A與MI250X的比較結果如下：

兩款設備可支持的HBM記憶體容量相同，但MI300A的記憶體頻寬為後者的1.7倍，而且實際上可由GPU和CPU小晶片共享。此外，MI300A的外部互連速度同樣翻倍，峰值理論性能提高至1.3倍至2.6倍，運行功率則增加了35.6%。

我們期待看到這樣的共享記憶體設計，會如何影響HPC和AI工作負載的實際應用性能。

平台比封裝又更重要

歸根結底，客戶購買的是平台，而不是晶片或者插槽。AMD公司表示，MI300X GPU可以與上代MI200系列一樣，接入至相同的開放計算通用基板（UBB）當中。

贊助商廣告

如果將8個MI300X設備捆綁起來，則單一UBB複合體能夠在啟用稀疏性的情況下以BF16/FP16精度提供21千萬億次（對於密集數據，性能減半為10.5千萬億次）算力，且擁有1.5 TB的HBM3記憶體容量。至於GPU與外部環境之間，則由一條PCI-Express 5.0 x16通道提供896 GB/秒的Infinity Fabric傳輸頻寬。換句話說，CPU將可通過多節點網路結構實現對集群的全方位訪問。