宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

2025年06月13日 首頁 » 熱門科技

AMD今日正式發布CDNA 4架構及Instinct MI350系列GPU,新架構在計算密度、能效比和內存帶寬方面相比上代產品有顯著的優化,同時支持靈活的硬體分區和開放 的生態系統,為生成式AI和大語言模型訓練與推理帶來突破性的性能提升。

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

AMD表示,CDNA 4架構的優點可以總結為4個部分,首先是針對生成式AI (GenAI) 和大型語言模型 (LLM)  配置的增強型矩陣引擎,同時為實現混合精度運算帶來了新數據格式的支持,增強的Infinity  Fabric總線以及先進的封裝互連技術則為性能提升打下堅實的基礎,在這三點基礎上還實現了能效的進一步提升。

AMD Instinct MI350系列GPU

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

基於CDNA 4架構打造的Instinct MI350系列GPU就是這四個優點的最佳體現,其基於疊代升級後的晶片堆疊封裝工藝打造,採用N3P工藝的加速器複合核心(XCD)通過COWOS-S封裝技術堆疊在採用N6工藝的I/O核心(IOD)  之上,3D混合架構為帶來了高性能密度和高能效比,IOD-IOD互連以及HBM3E顯存的集成則基於2.5D架構打造。

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

AMD Instinct MI350系列GPU包含有8個XCD模塊,每個XCD模塊32組計算單元,共計256組,1024個矩陣核心,每個XCD配置2MB  L2緩存;IOD基於2個N6工藝核心構成,提供有128通道HBM3E顯存接口與256MB容量的AMD  Infinity緩存;2個HBM3E顯存採用8堆棧結構,每個堆棧為12層堆疊的36GB,數據頻率為8Gbps,可提供8TB/s的顯存帶寬;內部所用的Infinity  Fabric AP互聯帶寬達到5.5TB/s,外部連接則基於1075GB/s帶寬的第四代Infinity Fabric總線與128GB/s帶寬的PCI-E  5.0接口。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

Instinct MI350系列GPU架構示意圖

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

Instinct MI350系列可以支持多達8個空間分區,以實現GPU利用率的最大化,在SPX NPS1模式下可以運行最高520B規模的AI模型,在CPX NPS2模式下則支持8組Llama  3.1 70B模型實例。

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

8堆棧的HBM3E顯存為Instinct MI350系列GPU帶來了288GB的高容量與8TB/s的高讀取帶寬,可以在對顯存帶寬敏感的應用中,帶來明顯的使用體驗提升。與上一代的Instinct  MI300系列GPU相比,Instinct MI350系列GPU在每瓦HBM顯存讀取帶寬性能上,最高可達前者的1.3倍。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

每CU的HBM讀取帶寬相比前代產品的1.5倍

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

Instinct MI350系列GPU在數據格式支持與性能上相比前代產品有穩步提升,首先是實現了FP6與FP4的支持,這是Instinct  MI300系列GPU無法實現的,FP6與FP4的每CU運算速率是FP8的2倍;在FP16/BF16/FP8/FP8/INT8/INT4的運行速度上相比上代產品也是有明顯的提升,其中FP16/BF16數據吞吐量達到4K  FLOPS/每時鐘/每CU,FP8數據吞吐量則達到8K  FLOPs/每時鐘/每CU,可以達到相當於前代產品1.9倍的理論運算峰值。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

基於8個GPU模塊組成的Instinct MI350系列平台的架構示意圖

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

專為AI運算的GPU大都是以機架陣列的形式登場,Instinct MI350系列自然不會例外。採用第五代EPYC系列處理器、Instinct  MI350系列GPU以及AMD Pollara NIC網卡的機架式陣列系統完全基於開放式標準打造,提供有DLC液冷方案與AC風冷方案可選,可滿足不同使用需求的客戶。

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

基於DLC液冷的MI355X方案整合有128個Instinct MI355X GPU,擁有36TB  HBM3E顯存,可提供644FP FP16/BF16、1.28EF  FP8、2.57EF FP6/FP4運算性能;基於AC風冷的MI350X方案整合有64個Instinct  MI355X GPU,擁有18TB HBM3E顯存,可提供295FP FP16/BF16、590PF  FP8、1.18EF FP6/FP4運算性能。

AMD ROCm 7平台

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

AMD不僅僅為AI運算帶來了硬體上的性能提升,實際上他們一直致力於為開發者和用戶帶來全方位的生態系統,這就是AMD ROCm平台所需要實現的目標。在Instinct  MI350系列GPU發布的同時,AMD也帶來了ROCm 7平台,進一步深化生態系統的協作。

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

AMD ROCm 7平台不僅加入MI350系列GPU支持,同時對最新的AI算法與模型的使用也進行了深度的適配,為規模化AI帶來了更多的先進功能,進一步提升了集群管理能力以及企業應用的兼容性。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

ROCm 7帶來的AI推理能力增強

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

ROCm 7可以在推理性能帶來明顯的提升,與ROCm 6平台相比在Llama 3.1  70B上是後者3.2倍,Qwen2-72B為3.4倍,DeepSeek R1為3.8倍,統計下為平均3.5倍,可以說性能提升是非常顯著的。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

與對手的B200相比,MI355X在DeepSeek R1的FP8吞吐量可以達到1.3倍

 

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

ROCm 7帶來的訓練能力增強

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

在訓練能力方面,ROCm 7相比於ROCm 6也是有顯著的提升,Llama 2 70B上是後者3倍,Llama 3.1  8B為3倍,Qwen 1.5 7B為3.1倍,統計下為平均3倍,可以說是全方位領先於ROCm 6平台。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

ROCm 7還降低了生成Token的成本

 

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

ROCm 7可以利用開放式系統實現規模化的分布式推理

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

ROCm 7可以稱之為「企業Ready」型平台,因為其在端到端解決方案、安全數據集成以及便於部署等三個方面都進行了充分的優化。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

ROCm 7平台在企業AI應用中的作用示意圖

 

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

AMD ROCm 7平台還有一個重要的特性,那就是其實現了完整的Windows平台支持

 

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

AMD致力於為所有需要AI系統的用戶提供合適的解決方案

 

AMD Pensando Pollara 400 AI NIC網卡

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

制約AI能力的不僅僅系統陣列本身的性能,對於規模化的AI陣列而言,陣列之間的互聯速率往往會深度影響AI的推理與學習能力,總結下來可以說是有5大制約因素,分別是GPU到GPU的通訊能力,陣列網際網路路的穩定性、陣列規模化難度、運維難度以及整體組建成本。

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

為了可以更好地減少這些制約因素的影響,AMD推出了業內首款基於超以太網路協議打造的AI NIC網卡Pensando  Pollara 400,其具有完全可編程的傳輸層,可靈活支持各種網路協議,同時可以有效降低CPU負載,PCI-E  5.0接口實現了高速率的系統連接,無需專用網路結構即可輕鬆擴展。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

Pensando Pollara AI NIC架構示意圖

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

在RCCL(ROCm集合通訊庫)吞吐量上,Pollara 400 AI NIC的速率是NVIDIA  CX7的1.1倍,是博通Thor2的1.2倍,領先於直接的競爭對手。

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

Pollara 400 AI NIC網卡是UEC Ready產品,其基準性能方面是RoCEv2產品的1.25倍

 

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

AMD可以提供靈活的CPU GPU NIC解決方案組合

 

從硬體到軟體的完整生態,AMD正式發布CDNA4架構與MI350系列AI GPU

在推出Pensando Pollara 400 AI NIC網卡之後,結合ROCm  7平台、EPYC處理器以及Instinct系列GPU,AMD已經可以從硬體到軟體提供全方位且配置靈活的整體式解決方案,他們也藉此成為了從軟體到硬體都有完整方案的AI計算設備廠商,在構建開放、靈活、可擴展且高性價比AI基礎設施的道路上邁出了重要的一步。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新