在Computex 2024的發布會上,AMD推出了全新的Zen 5架構,包括桌面端的銳龍9000系以及面向移動端的銳龍AI 300系處理器。但當時並沒有透露關於架構的太多資訊,只是說了產品的型號命名和參數規格,而在上周舉行的AMD技術日活動上他們詳細介紹了Zen 5、RDNA 3.5和XDNA 2的技術細節,還包括了銳龍9000和銳龍AI 300系處理器的一些關鍵性能數據。
本次銳龍9000桌面處理器以及銳龍AI 300系移動處理器均使用Zen 5架構,而這兩款處理器都會在本月上市,具體時間是銳龍AI 300的筆記本會在7月28日,而銳龍9000處理器則是7月31日。

Zen 5架構的改進方向大體可歸納為:每周期可執行更多指令;更寬的調度和執行單元;數據緩存帶寬翻倍;更強的AI加速性能。

先來看前端的改進,Zen 5直接升級成雙管道預取和解碼,搭配高級分支預測技術,可有效減少延遲、提高準確性和吞吐量,指令緩存的延遲和帶寬也得到改進,這些措施有效提高了數據流和數據處理速度,且不會犧牲準確性。

整數執行單元加寬了指令分派和執行通道,分配和引退從以往Zen架構的每時鐘周期6條指令增加到8條,以往的舊Zen架構整數執行單元包括4個ALU和3個AGU,而Zen 5則增加到6個ALU和4個AGU,它們均配備一體化調度器,這樣Zen 5就擁有更大的執行窗口,在更複雜的計算工作負載下會有更好表現。此外核心緩衝區從320條目增加到448條目,以更好地處理更廣的調度和執行所產生的更多的未命中。

浮點執行單元獲得重大更新,AMD自上代Zen 4開始支持AVX-512指令集,但那是使用256位SIMD用兩個時鐘周期來執行AVX-512指令的,而Zen 5則可提供完整的512位數據位寬,搭配6管線與2周期延遲的FADD,可處理更多浮點指令,在CPU執行一些AI模型時,能夠顯著提高反應速度與效能,面對未來各種AI應用。

緩存方面,一級數據緩存容量從32KB增加到48KB,寬度也從8路增加到12路,每周期4次讀取2次寫入,這讓一級緩存與浮點單元的最大帶寬直接比上代翻倍,改善了數據預取的效率。


根據AMD給出的數據,Zen 5架構的性能提升主要由數據帶寬、執行/退休、解碼/指令緩存以及獲取/分支預測這四大部分改進相互促進而成的,而Zen 5的IPC較Zen 4平均提升了16%之多,而使用VNNI的機械學習單核性能則比Zen 4提升了32%,使用AVX-512的AES-XTS加密負載單核性能則提升了35%。

除了在7月會上市的兩款消費級處理器外,採用Zen 5核心的第五代EPYC也將會在今年下半年上市,目前的Zen 5 CCD以及銳龍AI 300將會採用台積電4nm工藝生產,而未來更緊湊、更節能的Zen 5c則會採用台積電3nm工藝。從圖片可以看出EPYC Turin最多16個Zen 5 CCD,按每個CCD有8個核心計算的話最多128核,而採用Zen 5c CCD的版本則最多192核。

在Zen 5之後,Zen 6也在路上了

今年AMD有沒有RDNA 4這點我還不知道,但這RDNA 3.5是AMD專門為Strix Point移動處理器所打造的,針對每瓦能效、內存每bit效能以及更長的電池續航時間進行架構優化,它將被用在Radeon 800M系列核顯上。

RDNA 3.5較原來的RDNA 3相比有兩倍的紋理採樣率和插值與比較速率,前者意味著GPU擁有前代的兩倍性能,在遊戲過程中紋理和圖形的細節和清晰度得到增強,理論上有助於改善細節紋理,在高解析度時更有冗餘,而後者則可以更好地呈現高質量圖形細節。
還引進了更先進的內存管理技術,提高了內存每bit的操作效能,降低了對LPDDR5內存訪問頻率,意味著讀寫更快,總體上也更節能,延長筆記本的電池續航力。

根據官方的數據,在同樣是15W性能釋放下,Radeon 800M的3DMark Timespy得分比上代提升了32%,而Night Raid跑分則提升了19%。以上就是關於RDNA 3.5的內容,說真的AMD並沒有透露太多的細節資訊。

Intel在宣傳Lunar Lake時說它有CPU、GPU、NPU三個AI核心,實際上AMD自銳龍7040系列處理器開始就是這種結構,而現在Strix Point則配備了全新的XDNA 2架構NPU,可提供高達50 TOPS的AI算力,比銳龍7040的10 TOPS和銳龍8040系的16 TOPS提升非常大。

上圖是XNDA架構NPU和傳統的多核處理器的對比,說真的XDNA的這結構其實更像GPU這種平衡處理器,XDNA設計將靈活的計算與自適應內存層次結構結合起來,內部擁有大量互聯的AI引擎,有著彈性的運算單元與內存調度制度。

每個AI引擎通過可編程互聯節點進行分區控制,可進行靈活分區使用,包括空間分區和時間分區,空間分區就如上圖的例子那樣,兩列AI引擎負責實時影片、兩列負責實時音頻、四列負責內容創作應用。時間分區則適合大模型,可以整體先後執行不同的任務,比如先全力處理大語言模型,然後全部轉向影片編輯。


XDNA 2擁有32個AI引擎,每列擁有4個AI引擎,MAC數量較上代翻倍,緩存容量增加1.6倍,支持Block FP16塊狀浮點格式,支持非線性增強。NPU可根據任務的輕重程度以列為單位開啟AI引擎,在輕任務下可以關閉部分核心,從而節約功耗,能效比初代提高了一倍。性能方面,XDNA 2可提供50 TOPS的AI算力,是上代的5倍。

XDNA 2架構行業首創支持Block FP16浮點格式,對於AI運算來說數據類型至關重要,Int 8有較高的計算效能但精確度相對較低,而FP16則有較高的精確度但效能較低,而Block FP16則可實現Int 8的性能和FP16的精度。

AMD對比了Strix Point和蘋果M4 ANE、Intel Lunar Lake和高通驍龍Elite X處理器運行FP16數據的峰值算力,性能要高出很多,Lunar Lake的48 TOPS是基於Int 8數據的,跑FP16大概減半。

Block FP16數據類型精準度其實僅比FP32睇那麼一點點,而且對於開發商來說,可以相當容易的把模型轉化為FP16、FP32和BF16等數據類型。

在大語言模型Llama v2 7B的FP16量化模型的性能測試中,最新的銳龍AI 300處理器NPU的響應速度是酷睿Ultra 7 155H的5倍。

AMD也計劃推出Ryzen AI Software以支持各種模型並對其優化,並採用ONNX Runtime執行,讓未來搭載銳龍AI處理器的筆記本電腦具備更多的AI應用功能。

其實銳龍9000系列桌面處理器的規格早在Computex 2024上就公布了,基本和當年的銳龍7000是完全一樣的,包括:
銳龍9 9950X,16核32線程,最高頻率5.7GHz,64MB L3緩存,170W TDP;
銳龍9 9900X,12核24線程,最高頻率5.6GHz,64MB L3緩存,120W TDP;
銳龍7 9700X,8核16線程,最高頻率5.5GHz,32MB L3緩存,65W TDP;
銳龍5 9600X,6核12線程,最高頻率5.4GHz,32MB L3緩存,65W TDP;
兩顆銳龍9是雙CCD,而銳龍7和銳龍5則是單CCD,而且銳龍9 9950X、銳龍9 9900X的最高頻率和銳龍9 7950X、銳龍9 7900X也是一樣的,而銳龍7 9700X和銳龍5 9600X則比銳龍7000的兩款同型號的高100MHz,而這些處理器的上市時間敲定在7月31日。



由於Intel的新一代桌面處理器估計要10月才上市,這次AMD給銳龍9 9900X找的對手是現在Intel現在的旗艦酷睿i9-14900K,而銳龍7 9700X的對手則是酷睿i7-14700K,銳龍5 9600X是酷睿i5-14600K,具體的性能對比大家看圖就好了,至於頂級的銳龍9 9950X,就等著對手的下一代處理器來挑戰。

AMD沒給出銳龍7 9700X與銳龍7 7800X3D的性能對比,而是放出了銳龍7 5800X3D的對比,根據官方數據,65W的銳龍7 9700X在遊戲性能上領先於105W的銳龍7 5800X3D,平均要快12%,而且功耗更低,實際上銳龍9000X3D應該也不遠了,到時候再和銳龍7 7800X3D對比吧。

除了最頂級的銳龍9 9950X外,這代每個型號的TDP都要比上代有所降低,性能方面則有11%到22%不同幅度的增長,此外得益於新架構和新工藝,處理器的熱阻降低了15%,同TDP下溫度要比上代低7℃,對散熱器的要求明顯降低。

內存支持也有所改進,默認的JEDEC內存可支持DDR5-5600,但新的AGESEA可讓內存頻率直達DDR5-8000,同時支持內存實時超頻,可在系統內對內存時序經行更改,可隨時使用Ryzen Master軟體進行內存超頻,也可隨時切回默認狀態。

CPU超頻可直接交給PBO,可實現6%~15%的性能提升

此外AMD在原有的Curve Opitimizer功能基礎上推出Curve Shaper功能,可進一步允許玩家最大化調整降壓曲線,可提供最多15組頻率與溫度的組合,玩家可以在穩定區降低電壓並在必要時增加電壓,這允許玩家把銳龍9000處理器的潛力挖掘到極致,這設置適用於所有核心,不能單獨對某個核心進行調節。

主板方面,且和之前透露的消息差別不大,X870E是雙晶片,與X670E相比就是多了USB4的支持。X870變成了單晶片,現在GPU和M.2都強制支持PCIe 5.0,同時也支持USB4,可看作是多了USB4的B650E。B850其實就是B650的平替,但顯卡插槽升級支持PCIe 5.0。B840大家把它理解成A620就行了,不支持CPU超頻但支持內存超頻,只支持USB 10Gbps,顯卡和M.2口都是PCIe 4.0的,其他擴展則是PCIe 3.0。
其實上面所說的RDNA 3.5以及XDNA 2都是銳龍AI 300移動處理器的獨享內容,銳龍9000桌面處理器並不會配備這些,它的IO-Die還是銳龍7000上面那個,所以核顯也是RDNA 2架構的。

其實到這裡Strix Point也沒多少東西可說了,首批提供了銳龍AI 9 HX 370和銳龍AI 9 365兩款產品。其採用了混合架構設計,CPU部分包括了Zen 5和Zen 5c架構的核心,與Intel異構不同,Zen 5、Zen 5c還是完全相同的架構,IPC和ISA是完全相同的,不同之處在於核心頻率以及搭配的L3緩存容量。
銳龍AI 9 HX 370擁有4個Zen 5和8個Zen 5c,共24線程,配備24MB L3緩存,基礎頻率2.0GHz,最大加速頻率5.1GHz,配備16組CU的Radeon 890M核顯。
銳龍AI 9 HX 365擁有4個Zen 5和6個Zen 5c,共20線程,配備24MB L3緩存,基礎頻率2.0GHz,最大加速頻率5.0GHz,配備12組CU的Radeon 880M核顯。
兩者均配備50 TOPS的XDNA2架構NPU,TPD從15~54W可調。


AMD拿銳龍AI 9 HX 370對比了Intel酷睿Ultra 9 185H以及高通的驍龍X Elite處理器,不論生產力還是創作力方面的性能都是要領先對手的。

遊戲性能更是AMD處理器的拿手好戲,而且高通X Elite處理器在遊戲上出現了不少兼容性問題,根本不能運行,ARM架構在Windows系統下還是存在較嚴重的兼容性問題,而AMD新一代RDNA 3.5架構Radeon 890M核顯則可在高畫質下流暢運行不少3A遊戲。
AMD新一代Zen 5架構的銳龍AI 300筆記本會在7月28日上市,而銳龍9000處理器則是7月31日,雖然上面的PPT對比的都是Intel當前這代的產品,但大家應該都清楚它們真正的對手是Intel下一代的Arrow Lake和Luner Lake,當然了Luner Lake其實並不是一個賽道上的東西,但難免被大家拿來對比。
由於這次Lion Cove架構P核和Skymont架構E核改動很大,再加上大家都使用台積電4nm工藝,到時的性能對比肯定很精彩,只不過AMD這次確實有時間優勢,因為搭載Luner Lake處理器的筆記本大概率要等到9月才上市,而Arrow Lake桌面版本則要等到10月,移動版更是要明年初。AMD這次早至少兩個月不說,而且還讓他們搭上了暑期銷售旺季這班車,打對手一個先手,至於到時會不會被反推還很難說,反正可以確定的是AMD還有X3D這個後手藏著。