AMD今日正式發布CDNA 4架構及Instinct MI350系列GPU,新架構在計算密度、能效比和內存帶寬方面相比上代產品有顯著的優化,同時支持靈活的硬體分區和開放 的生態系統,為生成式AI和大語言模型訓練與推理帶來突破性的性能提升。

AMD表示,CDNA 4架構的優點可以總結為4個部分,首先是針對生成式AI (GenAI) 和大型語言模型 (LLM) 配置的增強型矩陣引擎,同時為實現混合精度運算帶來了新數據格式的支持,增強的Infinity Fabric總線以及先進的封裝互連技術則為性能提升打下堅實的基礎,在這三點基礎上還實現了能效的進一步提升。
AMD Instinct MI350系列GPU

基於CDNA 4架構打造的Instinct MI350系列GPU就是這四個優點的最佳體現,其基於疊代升級後的晶片堆疊封裝工藝打造,採用N3P工藝的加速器複合核心(XCD)通過COWOS-S封裝技術堆疊在採用N6工藝的I/O核心(IOD) 之上,3D混合架構為帶來了高性能密度和高能效比,IOD-IOD互連以及HBM3E顯存的集成則基於2.5D架構打造。

AMD Instinct MI350系列GPU包含有8個XCD模塊,每個XCD模塊32組計算單元,共計256組,1024個矩陣核心,每個XCD配置2MB L2緩存;IOD基於2個N6工藝核心構成,提供有128通道HBM3E顯存接口與256MB容量的AMD Infinity緩存;2個HBM3E顯存採用8堆棧結構,每個堆棧為12層堆疊的36GB,數據頻率為8Gbps,可提供8TB/s的顯存帶寬;內部所用的Infinity Fabric AP互聯帶寬達到5.5TB/s,外部連接則基於1075GB/s帶寬的第四代Infinity Fabric總線與128GB/s帶寬的PCI-E 5.0接口。

Instinct MI350系列GPU架構示意圖

Instinct MI350系列可以支持多達8個空間分區,以實現GPU利用率的最大化,在SPX NPS1模式下可以運行最高520B規模的AI模型,在CPX NPS2模式下則支持8組Llama 3.1 70B模型實例。

8堆棧的HBM3E顯存為Instinct MI350系列GPU帶來了288GB的高容量與8TB/s的高讀取帶寬,可以在對顯存帶寬敏感的應用中,帶來明顯的使用體驗提升。與上一代的Instinct MI300系列GPU相比,Instinct MI350系列GPU在每瓦HBM顯存讀取帶寬性能上,最高可達前者的1.3倍。

每CU的HBM讀取帶寬相比前代產品的1.5倍

Instinct MI350系列GPU在數據格式支持與性能上相比前代產品有穩步提升,首先是實現了FP6與FP4的支持,這是Instinct MI300系列GPU無法實現的,FP6與FP4的每CU運算速率是FP8的2倍;在FP16/BF16/FP8/FP8/INT8/INT4的運行速度上相比上代產品也是有明顯的提升,其中FP16/BF16數據吞吐量達到4K FLOPS/每時鐘/每CU,FP8數據吞吐量則達到8K FLOPs/每時鐘/每CU,可以達到相當於前代產品1.9倍的理論運算峰值。

基於8個GPU模塊組成的Instinct MI350系列平台的架構示意圖

專為AI運算的GPU大都是以機架陣列的形式登場,Instinct MI350系列自然不會例外。採用第五代EPYC系列處理器、Instinct MI350系列GPU以及AMD Pollara NIC網卡的機架式陣列系統完全基於開放式標準打造,提供有DLC液冷方案與AC風冷方案可選,可滿足不同使用需求的客戶。

基於DLC液冷的MI355X方案整合有128個Instinct MI355X GPU,擁有36TB HBM3E顯存,可提供644FP FP16/BF16、1.28EF FP8、2.57EF FP6/FP4運算性能;基於AC風冷的MI350X方案整合有64個Instinct MI355X GPU,擁有18TB HBM3E顯存,可提供295FP FP16/BF16、590PF FP8、1.18EF FP6/FP4運算性能。
AMD ROCm 7平台

AMD不僅僅為AI運算帶來了硬體上的性能提升,實際上他們一直致力於為開發者和用戶帶來全方位的生態系統,這就是AMD ROCm平台所需要實現的目標。在Instinct MI350系列GPU發布的同時,AMD也帶來了ROCm 7平台,進一步深化生態系統的協作。

AMD ROCm 7平台不僅加入MI350系列GPU支持,同時對最新的AI算法與模型的使用也進行了深度的適配,為規模化AI帶來了更多的先進功能,進一步提升了集群管理能力以及企業應用的兼容性。

ROCm 7帶來的AI推理能力增強

ROCm 7可以在推理性能帶來明顯的提升,與ROCm 6平台相比在Llama 3.1 70B上是後者3.2倍,Qwen2-72B為3.4倍,DeepSeek R1為3.8倍,統計下為平均3.5倍,可以說性能提升是非常顯著的。

與對手的B200相比,MI355X在DeepSeek R1的FP8吞吐量可以達到1.3倍

ROCm 7帶來的訓練能力增強

在訓練能力方面,ROCm 7相比於ROCm 6也是有顯著的提升,Llama 2 70B上是後者3倍,Llama 3.1 8B為3倍,Qwen 1.5 7B為3.1倍,統計下為平均3倍,可以說是全方位領先於ROCm 6平台。

ROCm 7還降低了生成Token的成本

ROCm 7可以利用開放式系統實現規模化的分布式推理

ROCm 7可以稱之為「企業Ready」型平台,因為其在端到端解決方案、安全數據集成以及便於部署等三個方面都進行了充分的優化。

ROCm 7平台在企業AI應用中的作用示意圖

AMD ROCm 7平台還有一個重要的特性,那就是其實現了完整的Windows平台支持

AMD致力於為所有需要AI系統的用戶提供合適的解決方案
AMD Pensando Pollara 400 AI NIC網卡

制約AI能力的不僅僅系統陣列本身的性能,對於規模化的AI陣列而言,陣列之間的互聯速率往往會深度影響AI的推理與學習能力,總結下來可以說是有5大制約因素,分別是GPU到GPU的通訊能力,陣列網際網路路的穩定性、陣列規模化難度、運維難度以及整體組建成本。

為了可以更好地減少這些制約因素的影響,AMD推出了業內首款基於超以太網路協議打造的AI NIC網卡Pensando Pollara 400,其具有完全可編程的傳輸層,可靈活支持各種網路協議,同時可以有效降低CPU負載,PCI-E 5.0接口實現了高速率的系統連接,無需專用網路結構即可輕鬆擴展。

Pensando Pollara AI NIC架構示意圖

在RCCL(ROCm集合通訊庫)吞吐量上,Pollara 400 AI NIC的速率是NVIDIA CX7的1.1倍,是博通Thor2的1.2倍,領先於直接的競爭對手。

Pollara 400 AI NIC網卡是UEC Ready產品,其基準性能方面是RoCEv2產品的1.25倍

AMD可以提供靈活的CPU GPU NIC解決方案組合

在推出Pensando Pollara 400 AI NIC網卡之後,結合ROCm 7平台、EPYC處理器以及Instinct系列GPU,AMD已經可以從硬體到軟體提供全方位且配置靈活的整體式解決方案,他們也藉此成為了從軟體到硬體都有完整方案的AI計算設備廠商,在構建開放、靈活、可擴展且高性價比AI基礎設施的道路上邁出了重要的一步。