宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

2024年07月25日 首頁 » 熱門科技

此前我們已經出過一篇超能課堂講述了新的Zen 5、RDNA 3.5和XDNA 2技術細節,那些內容是AMD在此前的技術日活動上介紹的,現在他們又放出了更多的資料,對Zen 5架構以及Granite Ridge和Strix Point進行了更詳細的介紹。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

Zen 5架構的設計目標是提升單線程和2線程的性能,並為未來計算核心架構奠定新的基礎,並為AVX512運算提供完整的512位數據位寬以提升吞吐量並提高AI運算性能。而平台方面,新架構包含Zen 5和Zen 5c兩種針對不同方向優化的核心,雖然現在Zen 5處理器都是用台積電4nm,但未來會有3nm的版本,Zen 5支持可配置的FP512/FP256數據,並新增了ISA功能指令集。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

Zen 5直接升級成雙管道預取和解碼,優化分支預測與預取Zero-bubble分支,L1/L2分支目標緩衝區從上代的1.5K/7K大幅擴大至16K/8K,目標地址生成引擎也更大,返回地址堆棧現在擴大到52個條目,這些改動可提高處理器的分支預測準確性,減少分支重定向的開銷,從而提升性能,現在每周期最多可採取2次預測,最多3個預測窗口。

內存管理採取了激進的取指隱藏了L2和表遍歷延遲,L2指令地址轉換緩存擴大到2048個條目。緩存延遲與帶寬方面現在每周期64字節的取指,並有兩個指令取指流。這些改動能讓處理器夠快速地從緩存中獲取指令,並且支持多個指令同時進行取指,從而提高了處理器的吞吐量和效率。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

解碼部分同樣升級成雙管道,兩個管道支持獨立的並行指令流,每個管道每周期處理4條指令,在SMT模式則為每個線程提供一根管道,在工作分配上,有8-wide派遣到整數和浮點運算執行單元。Op Cache方面,條目關聯性從12-way增加到16-way,密集型條目存儲6個指令,由於採用雙管道設計所以每周期一共可存儲12個指令。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

整數執行單元加寬了指令分派和執行通道,分配和引退從以往Zen架構的每時鐘周期6條指令增加到8條,整數調度聽過age matrix同一可以更堆成並簡化挑選。

以往的舊Zen架構整數執行單元包括4個ALU和3個AGU,而Zen 5則增加到6個ALU和4個AGU,而這6個ALU包含3個多乘法器和3個分支單元,4個AGU可每周期處理4個內存地址。執行窗口也顯著增長,調度器增長到88 ALU和56 AGU,並配備240條目的物理寄存器,在更複雜的計算工作負載下會有更好表現。

此外核心緩衝區從320條目增加到448條目,以更好地處理更廣的調度和執行所產生的更多的未命中。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

浮點執行單元獲得重大更新,AMD自上代Zen 4開始支持AVX-512指令集,但那是使用256位SIMD用兩個時鐘周期來執行AVX-512指令的,而Zen 5則可提供完整的512位數據位寬。新的執行單元擁有更高的帶寬與更低的延遲,擁有4條執行管線,2條LS/整數寄存器管線,每周期可執行2條512b的加載和1條512b存儲,並配備2周期延遲的FADD。

執行窗口也變得更大,NSQ伴隨8-wide派遣而有所增加,從64增加到96;調度器數量從2個增加到3個;物理寄存器從192翻倍到384;ROB/退休隊列從320增加到448。這些改動讓CPU可處理更多浮點指令,在CPU執行一些AI模型時,能夠顯著提高反應速度與效能,面對未來各種AI應用。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

緩存方面,一級數據緩存容量從32KB增加到48KB,寬度也從8路增加到12路,4條L/S管道每周期4次讀取2次寫入;4條整數裝載管道可以配對到2條浮點管道;每周期2條儲存提交;與L2緩存的通信位寬上下行均從32B翻倍到34B,讓L2帶寬直接翻倍。DTLB數據轉換旁路緩存也跟隨增長,L1從72條目增加到96條目,L2則從3072增長到4096。一級緩存與浮點單元的最大帶寬直接比上代翻倍,改善了數據預取的效率。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

以上就是Zen 5架構的改進更新重點,改進方向大體可歸納為:每周期可執行更多指令;更寬的調度和執行單元;數據緩存帶寬翻倍;更強的AI加速性能。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

新架構包含Zen 5和Zen 5c兩種採用同架構,但針對不同方向側重優化而設計不同的核心。Zen 5是針對單線程性能優化的核心,目標是更高的時鐘頻率,每核心更大的L3緩存,因此Zen 5核心會更為耗電並且會占用更大的晶片面積。Zen 5c則是針對可擴展性而優化,擁有相同的IPC和指令集但頻率會較低,而且每個核心的L3緩存也較少,所以晶片面積也更小,單個核心面積會比Zen 5少25%,算上L3的話縮小比例更多。

AMD這次為面向移動處理器的Strix Point同時配備了Zen 5和Zen 5c兩種核心,並通過簡單的軟體調度核心工作,由於Zen 5和Zen 5c擁有相同的IPC和特性,所以調度程序不太需要擔心性能上的落差以及調度錯誤的問題,而且Zen 5和Zen 5c都支持SMT同步多線程,所以軟體只需要考慮核心的效能和效率即可。

至於桌面端的Granite Ridge,也就是銳龍9000,AMD認為不需Zen 5c核心來擴展多線程性能,用兩個Zen 5的CCD即可獲得較好的多線程性能。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

Zen 5增加了ISA指令集,包括MOVDIR/MOVD64B可跳過緩存直接移動4、8或64字節數據至存儲;VP2INTERSECT和VNNI/VEK都是針對AVX512所增加的指令集,前者是AVX-512的向量對相交操作,後者則擴展AVX512指令到VEK編碼;PREFETCHI是軟體預取指令行到緩存層次結構。PMC虛擬化則是針對安全所增加的指令集。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

Zen 5對比Zen 4的改動匯總可見上表,Zen 5架構的性能提升主要由數據帶寬、執行/退休、解碼/指令緩存以及獲取/分支預測這四大部分改進相互促進而成的,根據此前給出的數據,Zen 5的IPC較Zen 4平均提升了16%之多。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

這是Zen 5 CCX的緩存結構圖,大致結構和Zen 4差不多,L1緩存的變動在上面核心介紹時已經說了,L2緩存容量依然是1MB,但從8-Way增加到16-Way,這直接讓L2緩存帶寬翻倍,L3緩存的延遲有所降低。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

Granite Ridge其實沒什麽好說的,SoC結構和Zen 4的Raphael完全一樣,繼續使用上代的6nm IOD,可配備兩個Zen 5 CCD,最多16核32線程,IOD支持128bit DDR5-5600內存,配備兩個RDNA 2架構CU的核顯,可提供4路顯示輸出,有28條PCIe 5.0,5個USB接口。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

而面向移動端的Strix Point內部包含兩組CCX,一個擁有4個Zen 5核心,擁有16MB L3緩存,而另一個則擁有8個Zen 5c核心,擁有8MB L3緩存,兩者的緩存是相互獨立的,需要通過SoC內部的IF總線通信。這設計就和此前的Phoenix 2很不一樣,它擁有的2個Zen 4和4個Zen 4c是在同一個CCX內的,6個核心共享16MB L3緩存。

此外Strix Point還有一個配備16組RDNA 3.5架構CU的核顯,一個4*8共32個AI引擎的XDNA 2架構NPU,IO方面,支持128bit LPDDR5-7500或DDR5-5600內存,提供16條PCIe 4.0通道,支持4路影片輸出,一共可提供8個USB接口,包括兩個USB4。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

Radeon 890M核顯有8組WGP,共16組CU,包含1024個流處理器、32個AI單元和16個光追單元、16個ROP,最高頻率2.9GHz,FP32吞吐量超過11 TFLOP/s,同功率下較上代核顯高出30%。

RDNA 3.5較原來的RDNA 3相比有兩倍的紋理採樣率和插值與比較速率,前者意味著GPU擁有前代的兩倍性能,在遊戲過程中紋理和圖形的細節和清晰度得到增強,理論上有助於改善細節紋理,在高解析度時更有冗餘,而後者則可以更好地呈現高質量圖形細節。

還引進了更先進的內存管理技術,提高了內存每bit的操作效能,降低了對LPDDR5內存訪問頻率,意味著讀寫更快,總體上也更節能,延長筆記本的電池續航力。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

XDNA 2擁有32個AI引擎,每列擁有4個AI引擎,MAC數量較上代翻倍,緩存容量增加1.6倍,支持Block FP16塊狀浮點格式,支持非線性增強。NPU可根據任務的輕重程度以列為單位開啟AI引擎,在輕任務下可以關閉部分核心,從而節約功耗,能效比初代提高了一倍。性能方面,XDNA 2可提供50 TOPS的AI算力,是上代的5倍。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

除了即將上市的兩款消費級處理器外,採用Zen 5核心的第五代EPYC也將會在今年下半年上市,目前的Zen 5 CCD以及銳龍AI 300將會採用台積電4nm工藝生產,而未來更緊湊、更節能的Zen 5c則會採用台積電3nm工藝。

 

AMD放出關於更多關於Zen 5架構的細節資料,並詳細介紹兩款新SoC

 

總結一下,Zen 5帶來了16%的IPC提升,改良重點包括平衡的跨核單/雙線程指令和數據吞吐量;完整的512位浮點數據路徑帶來了更好的AVX512吞吐量,讓AI性能提升;擁有各種高效能、高性能以及可擴展的解決方案。

沒什麽意外的話搭載Strix Point的筆記本會在7月28日發售,但Granite Ridge桌面處理器就延期了,AMD今天剛發出公告推遲銳龍9000系列處理器的發售日期,其中銳龍7 9700X和銳龍5 9600X推遲至8月8日,而銳龍9 9950X和9900X則延期至8月15日。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新