宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AMD發力GPU計算領域,現在壓力來到英偉達這邊

2024年10月11日 首頁 » 熱門科技

AMD發力GPU計算領域,現在壓力來到英偉達這邊

隨著時間推移,AMD的Instinct GPU加速器也變得越來越具有競爭力。隨著此番推出的Instinct MI325X和MI355X,AMD已經能夠在GPU層面與英偉達的「Hopper」H200和「Blackwell」B100相抗衡。

但AMD自己也很清楚,在消費者採購的互連與系統軟體、AI框架以及GPU加速器當中,英偉達在諸多層面仍然掌握著決定性優勢。可話又說回來,既然很多企業壓根就買不到英偉達的GPU,那麼轉而選擇AMD的GPU產品總要比在生成式AI執法當中袖手旁觀要好得多。此外,AMD也正在利用其ROCm技術棧追趕CUDA,並希望能與其UALink合作夥伴共同開發出一套統一的內存互連,用以與英偉達專有的NVLink和NVSwitch架構展開競爭,從而構建起機架規模甚至是行規模系統。

而在此番於舊金山召開的Advancing AI大會上,關於MI325X以及MI355X更多細節的揭曉以及對未來MI400的暗示,也成為業界廣泛關注和討論的話題。每個人都期待AMD能夠拿出混合精度更廣、HBM內存容量和帶寬更大的GPU加速器產品。

下面我們就從MI325X開始,看看其速度與數據饋送指標與今年6月在台灣Computex展會上展示的情況相比有何變化。

AMD發力GPU計算領域,現在壓力來到英偉達這邊

通過上圖所示的速率表可以看到,MI325X複合體擁有1530億個電晶體,這樣的電晶體封裝規模可謂相當龐大。FP16半精度下1307.4萬億次的浮點數學性能和FP8四分之一精度下2614.9千萬億次的浮點數學性能與四個月前的宣傳完全一致。但是,MI325X的內存容量略低於預期。最初,AMD表示預計這八個HBM3E內存棧的總容量為288 GB,但出於某些原因(可能是受到12層3 GB內存棧的產能限制),其實際容量只有256 GB。內存帶寬倒是與6月的公布結果一致,即8個HBM3E技術棧共提供6 TB/秒傳輸整訓工。

MI325X具有與現有「Antares」MI300X GPU相同的性能。更具體地講,MI325屬於同樣的計算複合體,沿用台積電公司相同的4納米製程工藝製造而成,只是功率從750瓦提升到了1000瓦,因此能夠帶動更大的HBM內存容量和更高的傳輸帶寬。

MI300X擁有192 GB大小且速度略慢的HBM3內存,其封裝內的總傳輸帶寬為5.3 TB/秒。據我們了解,兩款產品在GPU塊和HBM3/HBM3E內存之間的256 MB Infinity Cache緩存也是完全相同的。

MI325X可以接入與MI300X相同的插槽和同樣的Open Compute通用基板伺服器平台,因此無需創建新的伺服器設計來容納這些新款GPU加速器。當然,用戶必須擁有充足的熱容量對其進行冷卻。

下面來看使用MI325X的八路GPU節點的饋送與速度指標:

AMD發力GPU計算領域,現在壓力來到英偉達這邊

每個MI300系列GPU都擁有7條128 GB/秒的Infinity Fabric鏈路,這使其能夠在節點之內以全對全的形式共享內存配置連接。

AMD公司CEO蘇姿豐在會上表示,MI325X將在本季度末開始出貨,並將在明年第一季度登陸合作夥伴產品。而就在同一時間點,英偉達應該也將騰出手來交付更多Blackwell B100 GPU產能。

但目前來看,AMD仍滿足於將MI325X與大內存版Hopper H200 GPU進行比較,後者在其六個堆棧中配備有141 GB的HBM3E內存和4.8 TB/秒的傳輸帶寬。相比之下,AMD在GPU內存容量方面具有1.8倍的優勢,意味著加載特定模型參數所需要的GPU數量只相當於英偉達的1/1.8,而傳輸帶寬方面則具有1.25倍的優勢,因此能夠縮短將參數資訊提交給GPU所需要的時間。(其實測試內存容量及帶寬對於AI訓練性能的影響非常有趣,我們將在後續文章中嘗試探究其中的真相。)

以下是蘇姿豐在大會上展示的基準測試結果,對比雙方分別為MI325X與英偉達H200:

AMD發力GPU計算領域,現在壓力來到英偉達這邊

在這三項推理測試中,性能似乎主要由MI325X和H200之間的帶寬差異決定,而且具體結果還存在一些波動。上圖左側所示的Mixtral基準測試衡量的是推理吞吐量,因此其中內存容量似乎有著更為重要的影響;而中間Mistral和右側Llama 3.1測試衡量的則是推理延遲,這似乎主要由HBM傳輸帶寬決定。

在八路GPU平台之上,以上優勢也都將被等比例放大:

AMD發力GPU計算領域,現在壓力來到英偉達這邊

下圖所示為Llama 3.1基準測試中的部分性能規格,其中分別選取70B和405B兩種參數規模來證明1.4倍的性能優勢結論:

AMD發力GPU計算領域,現在壓力來到英偉達這邊

我們一直希望能看到關於AI訓練的基準結果,而AMD此番也終於帶給我們兩個數據點,這裡使用的是Meta Platforms的舊版Llama 2模型:

AMD發力GPU計算領域,現在壓力來到英偉達這邊

在我們看來,最有趣的就是在使用單個設備時,MI325X的性能要比H200高出10%;但在轉向八路GPU節點時,這種優勢則會消失。我們猜測跟英偉達HGX設備中使用的NVSwitch互連相比,Infinity Fabric的速度還不夠快,因此抵消了性能優勢。但在性能相當的情況下,可能NVSwithc和H200 HGX複合體當中使用的那些「粗大」的900 GB/秒NVLink通道也並沒有我們想像中那麼效果拔群。至少在Llama 2推理場景下看是如此。

可是AMD老兄,Llama 3.1訓練數據在哪裡?這才是當下大家最關心的。

接下來,讓我們轉向Instinct MI350系列GPU。作為AMD旗下新的產品家族,此番打頭陣的正是MI355X。

MI350系列將採用CDNA 4架構,據推測是從預計於2026年推出的再下一代MI400系列數據中心GPU中借鑑而來。MI350系列將採用台積電的3納米製程工藝,而且大概率會在插槽中安裝八塊晶片(因為除非在反面也部署chiplets小晶片組,否則整張卡也太高太薄了)。

正如今年6月所透露,MI350系列將是AMD首款支持FP4和FP6浮點數據格式的GPU。它們將擁有完整的288 GB HBM3E內存,採用12層的3 GB堆棧。按照8個堆棧計算,那麼其將為HBM3E內存提供8 TB/秒的傳輸帶寬。

無論CDNA 4架構如何,MI355X插槽都將提供1.8倍於MI325X的性能表現,即在FP16精度下為2.3千萬億次,在FP8精度下為4.6千萬億次,在FP6或FP4精度下則為9.2千萬億次。(這還不算稀疏矩陣支持,如果大家的負載不涉及對密集矩陣的數學運算,那麼吞吐量還可以再提高一倍。)

AMD發力GPU計算領域,現在壓力來到英偉達這邊

這就引出了另一個問題:相較於MI325X,MI355X是否會內存不足。如果說MI325X已經在計算和內存比率方面達到平衡,分別為288 GB和6 TB/秒,那麼我們預計MI355X將擁有512 GB的HBM3E內存容量和14.4 TB/秒的內存帶寬。如果情況真是如此,那麼相信大家也會認同這是一款相當強大的GPU加速器。

總而言之,下面來看八路MI355X系統板的饋送能力與速度表現:

AMD發力GPU計算領域,現在壓力來到英偉達這邊

下圖所示,為MI300X、MI325X和MI355X之上八路系統板的性能範圍與能夠處理的參數規模:

AMD發力GPU計算領域,現在壓力來到英偉達這邊

曾幾何時,5000億參數就足以令人目眩;但現在看來,似乎幾十萬億也變得沒什麼大不了的。

我們期待看到MI400系列中使用的CDNA-Next架構會是什麼樣子,也好奇AMD未來會用什麼樣的封裝將更多東西瘋狂塞進插槽。另外我們還將關注AMD如何進行下一步產能規劃,並逐漸從英偉達手中搶奪更多市場份額。至少就目前來看,只要HBM的供應量充足,一切就皆有可能。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新