從硬體到軟體的完整生態，AMD正式發布CDNA4架構與MI350系列AI GPU

AMD今日正式發布CDNA 4架構及Instinct MI350系列GPU，新架構在計算密度、能效比和內存帶寬方面相比上代產品有顯著的優化，同時支持靈活的硬體分區和開放的生態系統，為生成式AI和大語言模型訓練與推理帶來突破性的性能提升。

贊助商廣告

從硬體到軟體的完整生態，AMD正式發布CDNA4架構與MI350系列AI GPU

AMD表示，CDNA 4架構的優點可以總結為4個部分，首先是針對生成式AI (GenAI) 和大型語言模型 (LLM) 配置的增強型矩陣引擎，同時為實現混合精度運算帶來了新數據格式的支持，增強的Infinity Fabric總線以及先進的封裝互連技術則為性能提升打下堅實的基礎，在這三點基礎上還實現了能效的進一步提升。

AMD Instinct MI350系列GPU

基於CDNA 4架構打造的Instinct MI350系列GPU就是這四個優點的最佳體現，其基於疊代升級後的晶片堆疊封裝工藝打造，採用N3P工藝的加速器複合核心(XCD)通過COWOS-S封裝技術堆疊在採用N6工藝的I/O核心(IOD) 之上，3D混合架構為帶來了高性能密度和高能效比，IOD-IOD互連以及HBM3E顯存的集成則基於2.5D架構打造。

贊助商廣告

AMD Instinct MI350系列GPU包含有8個XCD模塊，每個XCD模塊32組計算單元，共計256組，1024個矩陣核心，每個XCD配置2MB L2緩存；IOD基於2個N6工藝核心構成，提供有128通道HBM3E顯存接口與256MB容量的AMD Infinity緩存；2個HBM3E顯存採用8堆棧結構，每個堆棧為12層堆疊的36GB，數據頻率為8Gbps，可提供8TB/s的顯存帶寬；內部所用的Infinity Fabric AP互聯帶寬達到5.5TB/s，外部連接則基於1075GB/s帶寬的第四代Infinity Fabric總線與128GB/s帶寬的PCI-E 5.0接口。

Instinct MI350系列GPU架構示意圖

Instinct MI350系列可以支持多達8個空間分區，以實現GPU利用率的最大化，在SPX NPS1模式下可以運行最高520B規模的AI模型，在CPX NPS2模式下則支持8組Llama 3.1 70B模型實例。

贊助商廣告

8堆棧的HBM3E顯存為Instinct MI350系列GPU帶來了288GB的高容量與8TB/s的高讀取帶寬，可以在對顯存帶寬敏感的應用中，帶來明顯的使用體驗提升。與上一代的Instinct MI300系列GPU相比，Instinct MI350系列GPU在每瓦HBM顯存讀取帶寬性能上，最高可達前者的1.3倍。

每CU的HBM讀取帶寬相比前代產品的1.5倍

Instinct MI350系列GPU在數據格式支持與性能上相比前代產品有穩步提升，首先是實現了FP6與FP4的支持，這是Instinct MI300系列GPU無法實現的，FP6與FP4的每CU運算速率是FP8的2倍；在FP16/BF16/FP8/FP8/INT8/INT4的運行速度上相比上代產品也是有明顯的提升，其中FP16/BF16數據吞吐量達到4K FLOPS/每時鐘/每CU，FP8數據吞吐量則達到8K FLOPs/每時鐘/每CU，可以達到相當於前代產品1.9倍的理論運算峰值。

贊助商廣告
基於8個GPU模塊組成的Instinct MI350系列平台的架構示意圖

專為AI運算的GPU大都是以機架陣列的形式登場，Instinct MI350系列自然不會例外。採用第五代EPYC系列處理器、Instinct MI350系列GPU以及AMD Pollara NIC網卡的機架式陣列系統完全基於開放式標準打造，提供有DLC液冷方案與AC風冷方案可選，可滿足不同使用需求的客戶。

基於DLC液冷的MI355X方案整合有128個Instinct MI355X GPU，擁有36TB HBM3E顯存，可提供644FP FP16/BF16、1.28EF FP8、2.57EF FP6/FP4運算性能；基於AC風冷的MI350X方案整合有64個Instinct MI355X GPU，擁有18TB HBM3E顯存，可提供295FP FP16/BF16、590PF FP8、1.18EF FP6/FP4運算性能。

AMD ROCm 7平台

贊助商廣告

AMD不僅僅為AI運算帶來了硬體上的性能提升，實際上他們一直致力於為開發者和用戶帶來全方位的生態系統，這就是AMD ROCm平台所需要實現的目標。在Instinct MI350系列GPU發布的同時，AMD也帶來了ROCm 7平台，進一步深化生態系統的協作。

AMD ROCm 7平台不僅加入MI350系列GPU支持，同時對最新的AI算法與模型的使用也進行了深度的適配，為規模化AI帶來了更多的先進功能，進一步提升了集群管理能力以及企業應用的兼容性。

ROCm 7帶來的AI推理能力增強

贊助商廣告

ROCm 7可以在推理性能帶來明顯的提升，與ROCm 6平台相比在Llama 3.1 70B上是後者3.2倍，Qwen2-72B為3.4倍，DeepSeek R1為3.8倍，統計下為平均3.5倍，可以說性能提升是非常顯著的。

與對手的B200相比，MI355X在DeepSeek R1的FP8吞吐量可以達到1.3倍

ROCm 7帶來的訓練能力增強

贊助商廣告

在訓練能力方面，ROCm 7相比於ROCm 6也是有顯著的提升，Llama 2 70B上是後者3倍，Llama 3.1 8B為3倍，Qwen 1.5 7B為3.1倍，統計下為平均3倍，可以說是全方位領先於ROCm 6平台。

ROCm 7還降低了生成Token的成本

ROCm 7可以利用開放式系統實現規模化的分布式推理

贊助商廣告

ROCm 7可以稱之為「企業Ready」型平台，因為其在端到端解決方案、安全數據集成以及便於部署等三個方面都進行了充分的優化。

ROCm 7平台在企業AI應用中的作用示意圖

AMD ROCm 7平台還有一個重要的特性，那就是其實現了完整的Windows平台支持

贊助商廣告
AMD致力於為所有需要AI系統的用戶提供合適的解決方案

AMD Pensando Pollara 400 AI NIC網卡

制約AI能力的不僅僅系統陣列本身的性能，對於規模化的AI陣列而言，陣列之間的互聯速率往往會深度影響AI的推理與學習能力，總結下來可以說是有5大制約因素，分別是GPU到GPU的通訊能力，陣列網際網路路的穩定性、陣列規模化難度、運維難度以及整體組建成本。

為了可以更好地減少這些制約因素的影響，AMD推出了業內首款基於超以太網路協議打造的AI NIC網卡Pensando Pollara 400，其具有完全可編程的傳輸層，可靈活支持各種網路協議，同時可以有效降低CPU負載，PCI-E 5.0接口實現了高速率的系統連接，無需專用網路結構即可輕鬆擴展。

贊助商廣告
Pensando Pollara AI NIC架構示意圖

在RCCL（ROCm集合通訊庫）吞吐量上，Pollara 400 AI NIC的速率是NVIDIA CX7的1.1倍，是博通Thor2的1.2倍，領先於直接的競爭對手。

Pollara 400 AI NIC網卡是UEC Ready產品，其基準性能方面是RoCEv2產品的1.25倍

贊助商廣告
AMD可以提供靈活的CPU GPU NIC解決方案組合

在推出Pensando Pollara 400 AI NIC網卡之後，結合ROCm 7平台、EPYC處理器以及Instinct系列GPU，AMD已經可以從硬體到軟體提供全方位且配置靈活的整體式解決方案，他們也藉此成為了從軟體到硬體都有完整方案的AI計算設備廠商，在構建開放、靈活、可擴展且高性價比AI基礎設施的道路上邁出了重要的一步。