超能課堂(333)：AMD銳龍9000和銳龍AI 300處理器CPU、GPU、NPU全解析

在Computex 2024的發布會上，AMD推出了全新的Zen 5架構，包括桌面端的銳龍9000系以及面向移動端的銳龍AI 300系處理器。但當時並沒有透露關於架構的太多資訊，只是說了產品的型號命名和參數規格，而在上周舉行的AMD技術日活動上他們詳細介紹了Zen 5、RDNA 3.5和XDNA 2的技術細節，還包括了銳龍9000和銳龍AI 300系處理器的一些關鍵性能數據。

贊助商廣告

本次銳龍9000桌面處理器以及銳龍AI 300系移動處理器均使用Zen 5架構，而這兩款處理器都會在本月上市，具體時間是銳龍AI 300的筆記本會在7月28日，而銳龍9000處理器則是7月31日。

超能課堂(333)：AMD銳龍9000和銳龍AI 300處理器CPU、GPU、NPU全解析

Zen 5架構的改進方向大體可歸納為：每周期可執行更多指令；更寬的調度和執行單元；數據緩存頻寬翻倍；更強的AI加速性能。

先來看前端的改進，Zen 5直接升級成雙管道預取和解碼，搭配高級分支預測技術，可有效減少延遲、提高準確性和吞吐量，指令緩存的延遲和頻寬也得到改進，這些措施有效提高了數據流和數據處理速度，且不會犧牲準確性。

贊助商廣告

整數執行單元加寬了指令分派和執行通道，分配和引退從以往Zen架構的每時鐘周期6條指令增加到8條，以往的舊Zen架構整數執行單元包括4個ALU和3個AGU，而Zen 5則增加到6個ALU和4個AGU，它們均配備一體化調度器，這樣Zen 5就擁有更大的執行窗口，在更複雜的計算工作負載下會有更好表現。此外核心緩衝區從320條目增加到448條目，以更好地處理更廣的調度和執行所產生的更多的未命中。

浮點執行單元獲得重大更新，AMD自上代Zen 4開始支持AVX-512指令集，但那是使用256位SIMD用兩個時鐘周期來執行AVX-512指令的，而Zen 5則可提供完整的512位數據位寬，搭配6管線與2周期延遲的FADD，可處理更多浮點指令，在CPU執行一些AI模型時，能夠顯著提高反應速度與效能，面對未來各種AI應用。

緩存方面，一級數據緩存容量從32KB增加到48KB，寬度也從8路增加到12路，每周期4次讀取2次寫入，這讓一級緩存與浮點單元的最大頻寬直接比上代翻倍，改善了數據預取的效率。

贊助商廣告

根據AMD給出的數據，Zen 5架構的性能提升主要由數據頻寬、執行/退休、解碼/指令緩存以及獲取/分支預測這四大部分改進相互促進而成的，而Zen 5的IPC較Zen 4平均提升了16%之多，而使用VNNI的機械學習單核性能則比Zen 4提升了32%，使用AVX-512的AES-XTS加密負載單核性能則提升了35%。

除了在7月會上市的兩款消費級處理器外，採用Zen 5核心的第五代EPYC也將會在今年下半年上市，目前的Zen 5 CCD以及銳龍AI 300將會採用台積電4nm工藝生產，而未來更緊湊、更節能的Zen 5c則會採用台積電3nm工藝。從圖片可以看出EPYC Turin最多16個Zen 5 CCD，按每個CCD有8個核心計算的話最多128核，而採用Zen 5c CCD的版本則最多192核。

贊助商廣告

在Zen 5之後，Zen 6也在路上了

今年AMD有沒有RDNA 4這點我還不知道，但這RDNA 3.5是AMD專門為Strix Point移動處理器所打造的，針對每瓦能效、記憶體每bit效能以及更長的電池續航時間進行架構優化，它將被用在Radeon 800M系列核顯上。

RDNA 3.5較原來的RDNA 3相比有兩倍的紋理採樣率和插值與比較速率，前者意味著GPU擁有前代的兩倍性能，在遊戲過程中紋理和圖形的細節和清晰度得到增強，理論上有助於改善細節紋理，在高解析度時更有冗餘，而後者則可以更好地呈現高質量圖形細節。

還引進了更先進的記憶體管理技術，提高了記憶體每bit的操作效能，降低了對LPDDR5記憶體訪問頻率，意味著讀寫更快，總體上也更節能，延長筆記本的電池續航力。

贊助商廣告

根據官方的數據，在同樣是15W性能釋放下，Radeon 800M的3DMark Timespy得分比上代提升了32%，而Night Raid跑分則提升了19%。以上就是關於RDNA 3.5的內容，說真的AMD並沒有透露太多的細節資訊。

Intel在宣傳Lunar Lake時說它有CPU、GPU、NPU三個AI核心，實際上AMD自銳龍7040系列處理器開始就是這種結構，而現在Strix Point則配備了全新的XDNA 2架構NPU，可提供高達50 TOPS的AI算力，比銳龍7040的10 TOPS和銳龍8040系的16 TOPS提升非常大。

上圖是XNDA架構NPU和傳統的多核處理器的對比，說真的XDNA的這結構其實更像GPU這種平衡處理器，XDNA設計將靈活的計算與自適應記憶體層次結構結合起來，內部擁有大量互聯的AI引擎，有著彈性的運算單元與記憶體調度制度。

贊助商廣告

每個AI引擎通過可編程互聯節點進行分區控制，可進行靈活分區使用，包括空間分區和時間分區，空間分區就如上圖的例子那樣，兩列AI引擎負責實時影片、兩列負責實時音頻、四列負責內容創作應用。時間分區則適合大模型，可以整體先後執行不同的任務，比如先全力處理大語言模型，然後全部轉向影片編輯。

XDNA 2擁有32個AI引擎，每列擁有4個AI引擎，MAC數量較上代翻倍，緩存容量增加1.6倍，支持Block FP16塊狀浮點格式，支持非線性增強。NPU可根據任務的輕重程度以列為單位開啟AI引擎，在輕任務下可以關閉部分核心，從而節約功耗，能效比初代提高了一倍。性能方面，XDNA 2可提供50 TOPS的AI算力，是上代的5倍。

贊助商廣告

XDNA 2架構行業首創支持Block FP16浮點格式，對於AI運算來說數據類型至關重要，Int 8有較高的計算效能但精確度相對較低，而FP16則有較高的精確度但效能較低，而Block FP16則可實現Int 8的性能和FP16的精度。

AMD對比了Strix Point和蘋果M4 ANE、Intel Lunar Lake和高通驍龍Elite X處理器運行FP16數據的峰值算力，性能要高出很多，Lunar Lake的48 TOPS是基於Int 8數據的，跑FP16大概減半。

Block FP16數據類型精準度其實僅比FP32睇那麼一點點，而且對於開發商來說，可以相當容易的把模型轉化為FP16、FP32和BF16等數據類型。

贊助商廣告

在大語言模型Llama v2 7B的FP16量化模型的性能測試中，最新的銳龍AI 300處理器NPU的響應速度是酷睿Ultra 7 155H的5倍。

AMD也計劃推出Ryzen AI Software以支持各種模型並對其優化，並採用ONNX Runtime執行，讓未來搭載銳龍AI處理器的筆記本電腦具備更多的AI應用功能。

其實銳龍9000系列桌面處理器的規格早在Computex 2024上就公布了，基本和當年的銳龍7000是完全一樣的，包括：

銳龍9 9950X，16核32線程，最高頻率5.7GHz，64MB L3緩存，170W TDP；
銳龍9 9900X，12核24線程，最高頻率5.6GHz，64MB L3緩存，120W TDP；
銳龍7 9700X，8核16線程，最高頻率5.5GHz，32MB L3緩存，65W TDP；
銳龍5 9600X，6核12線程，最高頻率5.4GHz，32MB L3緩存，65W TDP；

兩顆銳龍9是雙CCD，而銳龍7和銳龍5則是單CCD，而且銳龍9 9950X、銳龍9 9900X的最高頻率和銳龍9 7950X、銳龍9 7900X也是一樣的，而銳龍7 9700X和銳龍5 9600X則比銳龍7000的兩款同型號的高100MHz，而這些處理器的上市時間敲定在7月31日。

贊助商廣告

由於Intel的新一代桌面處理器估計要10月才上市，這次AMD給銳龍9 9900X找的對手是現在Intel現在的旗艦酷睿i9-14900K，而銳龍7 9700X的對手則是酷睿i7-14700K，銳龍5 9600X是酷睿i5-14600K，具體的性能對比大家看圖就好了，至於頂級的銳龍9 9950X，就等著對手的下一代處理器來挑戰。

贊助商廣告

AMD沒給出銳龍7 9700X與銳龍7 7800X3D的性能對比，而是放出了銳龍7 5800X3D的對比，根據官方數據，65W的銳龍7 9700X在遊戲性能上領先於105W的銳龍7 5800X3D，平均要快12%，而且功耗更低，實際上銳龍9000X3D應該也不遠了，到時候再和銳龍7 7800X3D對比吧。

除了最頂級的銳龍9 9950X外，這代每個型號的TDP都要比上代有所降低，性能方面則有11%到22%不同幅度的增長，此外得益於新架構和新工藝，處理器的熱阻降低了15%，同TDP下溫度要比上代低7℃，對散熱器的要求明顯降低。

記憶體支持也有所改進，默認的JEDEC記憶體可支持DDR5-5600，但新的AGESEA可讓記憶體頻率直達DDR5-8000，同時支持記憶體實時超頻，可在系統內對記憶體時序經行更改，可隨時使用Ryzen Master軟體進行記憶體超頻，也可隨時切回默認狀態。

贊助商廣告

CPU超頻可直接交給PBO，可實現6%~15%的性能提升

此外AMD在原有的Curve Opitimizer功能基礎上推出Curve Shaper功能，可進一步允許玩家最大化調整降壓曲線，可提供最多15組頻率與溫度的組合，玩家可以在穩定區降低電壓並在必要時增加電壓，這允許玩家把銳龍9000處理器的潛力挖掘到極致，這設置適用於所有核心，不能單獨對某個核心進行調節。

主板方面，且和之前透露的消息差別不大，X870E是雙晶片，與X670E相比就是多了USB4的支持。X870變成了單晶片，現在GPU和M.2都強制支持PCIe 5.0，同時也支持USB4，可看作是多了USB4的B650E。B850其實就是B650的平替，但顯示卡插槽升級支持PCIe 5.0。B840大家把它理解成A620就行了，不支持CPU超頻但支持記憶體超頻，只支持USB 10Gbps，顯卡和M.2口都是PCIe 4.0的，其他擴展則是PCIe 3.0。

其實上面所說的RDNA 3.5以及XDNA 2都是銳龍AI 300移動處理器的獨享內容，銳龍9000桌面處理器並不會配備這些，它的IO-Die還是銳龍7000上面那個，所以核顯也是RDNA 2架構的。

贊助商廣告

其實到這裡Strix Point也沒多少東西可說了，首批提供了銳龍AI 9 HX 370和銳龍AI 9 365兩款產品。其採用了混合架構設計，CPU部分包括了Zen 5和Zen 5c架構的核心，與Intel異構不同，Zen 5、Zen 5c還是完全相同的架構，IPC和ISA是完全相同的，不同之處在於核心頻率以及搭配的L3緩存容量。

銳龍AI 9 HX 370擁有4個Zen 5和8個Zen 5c，共24線程，配備24MB L3緩存，基礎頻率2.0GHz，最大加速頻率5.1GHz，配備16組CU的Radeon 890M核顯。

銳龍AI 9 HX 365擁有4個Zen 5和6個Zen 5c，共20線程，配備24MB L3緩存，基礎頻率2.0GHz，最大加速頻率5.0GHz，配備12組CU的Radeon 880M核顯。

兩者均配備50 TOPS的XDNA2架構NPU，TPD從15~54W可調。

AMD拿銳龍AI 9 HX 370對比了Intel酷睿Ultra 9 185H以及高通的驍龍X Elite處理器，不論生產力還是創作力方面的性能都是要領先對手的。

贊助商廣告

遊戲性能更是AMD處理器的拿手好戲，而且高通X Elite處理器在遊戲上出現了不少兼容性問題，根本不能運行，ARM架構在Windows系統下還是存在較嚴重的兼容性問題，而AMD新一代RDNA 3.5架構Radeon 890M核顯則可在高畫質下流暢運行不少3A遊戲。

AMD新一代Zen 5架構的銳龍AI 300筆記本會在7月28日上市，而銳龍9000處理器則是7月31日，雖然上面的PPT對比的都是Intel當前這代的產品，但大家應該都清楚它們真正的對手是Intel下一代的Arrow Lake和Luner Lake，當然了Luner Lake其實並不是一個賽道上的東西，但難免被大家拿來對比。

由於這次Lion Cove架構P核和Skymont架構E核改動很大，再加上大家都使用台積電4nm工藝，到時的性能對比肯定很精彩，只不過AMD這次確實有時間優勢，因為搭載Luner Lake處理器的筆記本大概率要等到9月才上市，而Arrow Lake桌面版本則要等到10月，移動版更是要明年初。AMD這次早至少兩個月不說，而且還讓他們搭上了暑期銷售旺季這班車，打對手一個先手，至於到時會不會被反推還很難說，反正可以確定的是AMD還有X3D這個後手藏著。