AMD放出關於更多關於Zen 5架構的細節資料，並詳細介紹兩款新SoC

此前我們已經出過一篇超能課堂講述了新的Zen 5、RDNA 3.5和XDNA 2技術細節，那些內容是AMD在此前的技術日活動上介紹的，現在他們又放出了更多的資料，對Zen 5架構以及Granite Ridge和Strix Point進行了更詳細的介紹。

贊助商廣告

Zen 5架構的設計目標是提升單線程和2線程的性能，並為未來計算核心架構奠定新的基礎，並為AVX512運算提供完整的512位數據位寬以提升吞吐量並提高AI運算性能。而平台方面，新架構包含Zen 5和Zen 5c兩種針對不同方向優化的核心，雖然現在Zen 5處理器都是用台積電4nm，但未來會有3nm的版本，Zen 5支持可配置的FP512/FP256數據，並新增了ISA功能指令集。

Zen 5直接升級成雙管道預取和解碼，優化分支預測與預取Zero-bubble分支，L1/L2分支目標緩衝區從上代的1.5K/7K大幅擴大至16K/8K，目標地址生成引擎也更大，返回地址堆棧現在擴大到52個條目，這些改動可提高處理器的分支預測準確性，減少分支重定向的開銷，從而提升性能，現在每周期最多可採取2次預測，最多3個預測窗口。

記憶體管理採取了激進的取指隱藏了L2和表遍歷延遲，L2指令地址轉換緩存擴大到2048個條目。緩存延遲與帶寬方面現在每周期64字節的取指，並有兩個指令取指流。這些改動能讓處理器夠快速地從緩存中獲取指令，並且支持多個指令同時進行取指，從而提高了處理器的吞吐量和效率。

贊助商廣告

解碼部分同樣升級成雙管道，兩個管道支持獨立的並行指令流，每個管道每周期處理4條指令，在SMT模式則為每個線程提供一根管道，在工作分配上，有8-wide派遣到整數和浮點運算執行單元。Op Cache方面，條目關聯性從12-way增加到16-way，密集型條目存儲6個指令，由於採用雙管道設計所以每周期一共可存儲12個指令。

整數執行單元加寬了指令分派和執行通道，分配和引退從以往Zen架構的每時鐘周期6條指令增加到8條，整數調度聽過age matrix同一可以更堆成並簡化挑選。

以往的舊Zen架構整數執行單元包括4個ALU和3個AGU，而Zen 5則增加到6個ALU和4個AGU，而這6個ALU包含3個多乘法器和3個分支單元，4個AGU可每周期處理4個記憶體地址。執行窗口也顯著增長，調度器增長到88 ALU和56 AGU，並配備240條目的物理寄存器，在更複雜的計算工作負載下會有更好表現。

此外核心緩衝區從320條目增加到448條目，以更好地處理更廣的調度和執行所產生的更多的未命中。

浮點執行單元獲得重大更新，AMD自上代Zen 4開始支持AVX-512指令集，但那是使用256位SIMD用兩個時鐘周期來執行AVX-512指令的，而Zen 5則可提供完整的512位數據位寬。新的執行單元擁有更高的帶寬與更低的延遲，擁有4條執行管線，2條LS/整數寄存器管線，每周期可執行2條512b的加載和1條512b存儲，並配備2周期延遲的FADD。

執行窗口也變得更大，NSQ伴隨8-wide派遣而有所增加，從64增加到96；調度器數量從2個增加到3個；物理寄存器從192翻倍到384；ROB/退休隊列從320增加到448。這些改動讓CPU可處理更多浮點指令，在CPU執行一些AI模型時，能夠顯著提高反應速度與效能，面對未來各種AI應用。

贊助商廣告

緩存方面，一級數據緩存容量從32KB增加到48KB，寬度也從8路增加到12路，4條L/S管道每周期4次讀取2次寫入；4條整數裝載管道可以配對到2條浮點管道；每周期2條儲存提交；與L2緩存的通信位寬上下行均從32B翻倍到34B，讓L2帶寬直接翻倍。DTLB數據轉換旁路緩存也跟隨增長，L1從72條目增加到96條目，L2則從3072增長到4096。一級緩存與浮點單元的最大帶寬直接比上代翻倍，改善了數據預取的效率。

以上就是Zen 5架構的改進更新重點，改進方向大體可歸納為：每周期可執行更多指令；更寬的調度和執行單元；數據緩存帶寬翻倍；更強的AI加速性能。

新架構包含Zen 5和Zen 5c兩種採用同架構，但針對不同方向側重優化而設計不同的核心。Zen 5是針對單線程性能優化的核心，目標是更高的時鐘頻率，每核心更大的L3緩存，因此Zen 5核心會更為耗電並且會占用更大的晶片面積。Zen 5c則是針對可擴展性而優化，擁有相同的IPC和指令集但頻率會較低，而且每個核心的L3緩存也較少，所以晶片面積也更小，單個核心面積會比Zen 5少25%，算上L3的話縮小比例更多。

AMD這次為面向移動處理器的Strix Point同時配備了Zen 5和Zen 5c兩種核心，並通過簡單的軟體調度核心工作，由於Zen 5和Zen 5c擁有相同的IPC和特性，所以調度程序不太需要擔心性能上的落差以及調度錯誤的問題，而且Zen 5和Zen 5c都支持SMT同步多線程，所以軟體只需要考慮核心的效能和效率即可。

至於桌面端的Granite Ridge，也就是銳龍9000，AMD認為不需Zen 5c核心來擴展多線程性能，用兩個Zen 5的CCD即可獲得較好的多線程性能。

贊助商廣告

Zen 5增加了ISA指令集，包括MOVDIR/MOVD64B可跳過緩存直接移動4、8或64字節數據至存儲；VP2INTERSECT和VNNI/VEK都是針對AVX512所增加的指令集，前者是AVX-512的向量對相交操作，後者則擴展AVX512指令到VEK編碼；PREFETCHI是軟體預取指令行到緩存層次結構。PMC虛擬化則是針對安全所增加的指令集。

Zen 5對比Zen 4的改動匯總可見上表，Zen 5架構的性能提升主要由數據帶寬、執行/退休、解碼/指令緩存以及獲取/分支預測這四大部分改進相互促進而成的，根據此前給出的數據，Zen 5的IPC較Zen 4平均提升了16%之多。

這是Zen 5 CCX的緩存結構圖，大致結構和Zen 4差不多，L1緩存的變動在上面核心介紹時已經說了，L2緩存容量依然是1MB，但從8-Way增加到16-Way，這直接讓L2緩存帶寬翻倍，L3緩存的延遲有所降低。

贊助商廣告

Granite Ridge其實沒什麽好說的，SoC結構和Zen 4的Raphael完全一樣，繼續使用上代的6nm IOD，可配備兩個Zen 5 CCD，最多16核32線程，IOD支持128bit DDR5-5600記憶體，配備兩個RDNA 2架構CU的核顯，可提供4路顯示輸出，有28條PCIe 5.0，5個USB接口。

而面向移動端的Strix Point內部包含兩組CCX，一個擁有4個Zen 5核心，擁有16MB L3緩存，而另一個則擁有8個Zen 5c核心，擁有8MB L3緩存，兩者的緩存是相互獨立的，需要通過SoC內部的IF總線通信。這設計就和此前的Phoenix 2很不一樣，它擁有的2個Zen 4和4個Zen 4c是在同一個CCX內的，6個核心共享16MB L3緩存。

此外Strix Point還有一個配備16組RDNA 3.5架構CU的核顯，一個4*8共32個AI引擎的XDNA 2架構NPU，IO方面，支持128bit LPDDR5-7500或DDR5-5600記憶體，提供16條PCIe 4.0通道，支持4路影片輸出，一共可提供8個USB接口，包括兩個USB4。

Radeon 890M核顯有8組WGP，共16組CU，包含1024個流處理器、32個AI單元和16個光追單元、16個ROP，最高頻率2.9GHz，FP32吞吐量超過11 TFLOP/s，同功率下較上代核顯高出30%。

RDNA 3.5較原來的RDNA 3相比有兩倍的紋理採樣率和插值與比較速率，前者意味著GPU擁有前代的兩倍性能，在遊戲過程中紋理和圖形的細節和清晰度得到增強，理論上有助於改善細節紋理，在高解析度時更有冗餘，而後者則可以更好地呈現高質量圖形細節。

還引進了更先進的記憶體管理技術，提高了記憶體每bit的操作效能，降低了對LPDDR5記憶體訪問頻率，意味著讀寫更快，總體上也更節能，延長筆記本的電池續航力。

贊助商廣告

XDNA 2擁有32個AI引擎，每列擁有4個AI引擎，MAC數量較上代翻倍，緩存容量增加1.6倍，支持Block FP16塊狀浮點格式，支持非線性增強。NPU可根據任務的輕重程度以列為單位開啟AI引擎，在輕任務下可以關閉部分核心，從而節約功耗，能效比初代提高了一倍。性能方面，XDNA 2可提供50 TOPS的AI算力，是上代的5倍。

除了即將上市的兩款消費級處理器外，採用Zen 5核心的第五代EPYC也將會在今年下半年上市，目前的Zen 5 CCD以及銳龍AI 300將會採用台積電4nm工藝生產，而未來更緊湊、更節能的Zen 5c則會採用台積電3nm工藝。

總結一下，Zen 5帶來了16%的IPC提升，改良重點包括平衡的跨核單/雙線程指令和數據吞吐量；完整的512位浮點數據路徑帶來了更好的AVX512吞吐量，讓AI性能提升；擁有各種高效能、高性能以及可擴展的解決方案。

沒什麽意外的話搭載Strix Point的筆記本會在7月28日發售，但Granite Ridge桌面處理器就延期了，AMD今天剛發出公告推遲銳龍9000系列處理器的發售日期，其中銳龍7 9700X和銳龍5 9600X推遲至8月8日，而銳龍9 9950X和9900X則延期至8月15日。