如今我們早已進入了AI時代,包括ChatGPT、LLM等模型應用已經讓人們的生活得到天翻地覆的變化,對於CPU等硬體廠商來說,AI大規模普及帶來的算力要求達到了前所未有的程度,除了面向AI訓練的伺服器級別的硬體之外,主要用於AI推理的消費級處理器同樣也需要強大的算力,讓AI應用更加高效。

在台北Computex 2024中,AMD發布了Zen 5架構處理器,包括銳龍AI 300系以及銳龍9000系處理器,就在上周,AMD於洛杉磯舉辦了2024年的Tech Day活動,為大家詳細介紹了Zen 5處理器的性能、參數以及與之配套的應用。熱點科技也受邀來到現場,為大家帶來Zen 5架構的詳細介紹。
Zen 5:徹底優化,新製程架構讓AI應用得心應手

首先是Zen 5架構,Zen 5架構擁有6個ALU,數量是上一代的3倍,此外AMD也表示銳龍9000系列處理器的調度器更加統一,從而能夠讓數據處理更加高效。以滿足AI、遊戲等應用的高效運行。此外Zen 5也採用了48KB的12路L1緩存,在浮點運算以及最大帶寬上均是上代的2倍,當然Zen 5處理器也同樣支持完整版的AVX512指令,從而在一些專業應用上有事半功倍的作用。

值得注意的是,與移動處理器有所不同的是,AMD銳龍9000桌面處理器並沒有加入NPU,預計未來桌面CPU的主要功能還是與GPU打配合,從而滿足複雜的AI應用。具體到大家關心的性能數據上,AMD Zen5的IPC相比較Zen 4提升了16%左右,這個成績還是相當令人滿意的,畢竟除了IPC之外,基於Zen 5打造的銳龍9000系處理器在頻率上同樣有所提升。

在AI應用上,Zen 5表現得就更加出色,其中機器學習應用中,單核性能至高可以提升32%,而AES-XTS加密算法性能提升將達到35%,從而在新興應用中充分壓榨處理器的性能。此外Zen 5也採用了台積電的4nm以及3nm製程架構,從而在頻率、性能、功耗等方面都處於行業領先。此外這一次AMD也表示Zen 5架構將會應用於各個領域,除了桌面與移動處理器之外,包括EPYC霄龍處理器以及嵌入式處理器等都將採用Zen 5架構,從而讓企業部署更加得心應手。
銳龍9000系處理器:綜合性能最優
對於桌面級用戶來說,銳龍9000系處理器的出現能夠讓遊戲表現更加出色,當然全新的Zen 5架構也讓整個處理器的綜合表現達到前所未有的程度,而這種表現不僅僅是簡單的性能,更包括功耗以及溫度。

首先是這一次的銳龍9000系處理器首發包括四個不同的型號,也就是銳龍9 9950X、銳龍9 9900X、銳龍7 9700X以及銳龍5 9600X,從核心以及線程數來看,它們與銳龍7000系處理器也沒有什麼區別,分別為16核32線程、12核24線程、8核16線程以及6核12線程,頻率方面分別為5.7GHz/5.6GHz/5.5GHz以及5.4GHz。這些實際參數也已經在台北電腦展上公布了。

具體到實際性能,AMD銳龍9 9900X處理器與Intel Core i9-14900K相比,生產力性能提升幅度在10%,而遊戲性能則領先13%上下。AMD銳龍7 9700X處理器與Intel Core i7-14700K相比,生產力性能領先15%,遊戲性能領先12%,而銳龍5 9600X在生產力應用中性能領先20%,遊戲性能提升11%。至於為什麼沒有銳龍9 9950X處理器的對比,大概率就是因為目前還沒有一個合適的對手吧。

不過如果光是從遊戲性能來說,除了AMD老對手英特爾酷睿處理器之外,AMD銳龍9000系處理器還有一個自家兄弟需要競爭,那就是擁有超大緩存的X3D系列處理器,AMD拿出銳龍7 9700X處理器以及銳龍7 5800X3D處理器作為對比對象,應該是認為這顆處理器算得上是最適合遊戲玩家的處理器產品。在官方給出的對比圖中,銳龍7 9700X處理器的遊戲性能平均提升12%,還是相當給力的。
當然AMD也承認,在一些特別吃緩存的遊戲中,還是X3D系列處理器更有優勢,並且與銳龍7000系X3D處理器相比,銳龍7 9700X處理器只能算是打得有來有回,不出意外的話未來AMD也將推出基於Zen 5架構打造的X3D系列處理器,從而在遊戲性能上更加出色。事實上新的製程以及架構紅利讓銳龍9000系處理器不但在絕對性能上讓人滿意,更是在溫度以及功耗上可以帶來十分驚艷的表現。

除了旗艦銳龍9 9950X處理器仍然保持170W的TDP之外,其他三款處理器在TDP上均有所下降,銳龍9 9900X變成了120w,而銳龍7 9700X以及銳龍5 9600X處理器的TDP為65W。熱阻效率提升了15%,從而讓在相同TDP下,銳龍9000系處理器的溫度下降幅度大約為7攝氏度。再加上改良過的PBO策略,新一代的銳龍9000系處理器將不再是火龍而讓人頭疼,主流處理器達到95攝氏度閾值的這種情況應該不會在默認設置下再次出現。

可以說改良之後的銳龍9000系處理器不但在性能上有比較大的提升,功耗以及溫度的下降也讓處理器當之無愧地成了如今綜合性能最為出色的處理器終端,銳龍9000系處理器將於7月31日正式發售。
銳龍AI 300系處理器:集AI大成於一身
銳龍9000系處理器如果說是桌面處理器的巔峰的話,那麼銳龍AI 300系處理器則是集AI大成於一身的新一代APU,除了CPU之外,包括RDNA 3.5 GPU以及XDNA 2 NPU更是讓這顆處理器擁有極其出色的圖形以及AI算力。

AMD兩款銳龍AI 300系處理器包括銳龍AI 9 HX 370以及銳龍AI 9 365處理器,前者擁有12核24線程的規格,最高頻率5.1GHz,擁有36MB的緩存,搭載Radeon 890M移動顯卡,後者則擁有10核20線程的規格,最高頻率為5.0GHz,34MB的緩存,搭載Radeon 880M移動顯卡。AMD將大頭放到了銳龍AI 300系處理器的NPU上,實際上這一次的Tech Day對於銳龍AI 300系處理器的CPU和GPU著墨就沒有這麼多了。CPU在架構上與桌面處理器相差不大,而GPU則採用了RDNA 3.5架構,在能效比以及帶寬上擁有更高的表現,同時AMD也表示RDNA 3.5能夠為筆記本帶來更高的續航。


與上一代GPU相比,RDNA 3.5的紋理渲染率達到了2倍,並且顯存帶寬也將有所增加,具體到實際表現上,與Hawk Point處理器相比,TimeSpy性能提升32%,而Night Raid提升19%,這還是在15W條件下的使用場景,如果TDP提升至25W或者35W,那麼GPU性能將會提升更大。在台北電腦展上AMD就已經公布了一部分的測試成績,應對1080P解析度的遊戲也是完全沒有任何的問題。
當然銳龍AI 300系處理器中的C位選手顯然是NPU,AMD也花大量的時間為大家介紹基於XDNA 2打造的全新一代NPU。首先是AI,AMD表示對於不同的AI應用負載,所需要的算力實際上也是不同的,例如高負載過去一直使用GPU,而輕度AI負載由CPU負責,但是CPU需要負責通用任務,而GPU更多地使用在圖形渲染上,兩者處理AI任務的效率談不上特別高,這時候就要第三種處理單元也就是專門為AI打造的NPU登場。


AMD表示對於AI應用來說,不同應用的模型大小實際上有著很大的不同,比如說實現實時應用的AI特效所使用的模型就十分小巧,不需要太大的AI算力,但是像是Stable Diffusion 或者是LLM,就需要更大的AI算力,甚至還需要GPU來幫忙,但是GPU的功耗十分高。如果以能效比計算,GPU是CPU的8倍,而NPU則是CPU的35倍,因此越來越多的廠商將NPU植入到處理器之中。而AMD也是世界上首個將NPU植入到X86處理器中的廠商,也初步打造了屬於自己的AI生態系統。



傳統的多核處理器的計算單元之間相對比較獨立,在進行計算的時候需要先通過緩存才能進行數據交換,這樣無形中添加了數據交換的延遲,而到了XDNA AI引擎中,計算模塊共同在一個大的計算單元之中,相互之間為並行狀態,從而能夠更加快捷地從事特定任務例如AI的計算,AMD XDNA 2則將AI計算單元進行了大幅擴容,從20個AI引擎提升到了32個AI引擎,進而讓AI算力從10TOPS狂飆至50TOPS,算力提升5倍,並且效率也能提升2倍,從而讓AI筆記本在續航表現上更加出色。

除此之外,隨著AI應用場景的不斷延伸,大家對於AI計算的精度也越來越高,傳統的INT8似乎已經有點力不從心,但是FP32算力又太過於浪費,因此AMD想到了FP16,它的算力遠超FP32,並且精度也足夠使用,因此AMD選擇FP16以及INT8將其融合打造成為Block FP16數據類型,結合了16位數據的高精度和8位數據的高性能,使AI計算更高效,實際表現也同樣如此。

甚至和更高精度的FP32相比,Block FP16在特定場合也沒有太大的損失,滿足AI任務是完全沒有任何的問題。可以說在如今的技術水平下,Block FP16是讓消費者處理器解決AI應用的最優選,此外50TOPS的NPU算力也是目前移動處理器中最好的選擇。有了強大的NPU,再配合改良過後的GPU與CPU,AMD銳龍AI 300系處理器能夠帶給用戶無與倫比的綜合體驗。
Ryzen AI:新技術讓應用更加得心應手
雖然AMD新一代銳龍AI 300系處理器的硬體很出色,但是沒有好的軟體只能讓處理器成為無米之炊,因此AMD也不斷地更新自家Ryzen AI的應用,從而讓NPU發揮最強大的性能。


隨著AI的爆發,越來越多的用戶、科技企業以及資本湧入到這個行業之中,目前已經有74萬個AI模型順利落地,2023年一共創造了155億張AI圖片,過去十年計算模型的規模也提升了整整1000倍,全球AI使用者也達到了3.14億,而這些數據又給AI不斷地學習與提升自我,進一步推動AI的發展。

作為底層作業系統,微軟對於AI的力度支持達到了前所未有的程度,目前微軟已經宣布了Copilot PC概念,未來藉助支持Copilot的Win11來讓用戶的生活與工作效率更上一層樓。當然AMD也已經和微軟達成深度合作,微軟Copilot可以充分利用AMD的NPU來從事高效的AI計算。除此之外Stable Diffusion 3也在6月初的時候正式開源,能夠創造出與真實社會相媲美的圖片,而Stable Diffusion XL Turbo實現了AMD NPU的深度整合,從而讓AIGC更加高效。


AMD表示與友商相比,自家Block FP16能夠帶來極其明顯的優勢,在訓練和推理70億參數的Llama v2模型的時候,AMD的NPU算力可以提升整整五倍,而Agentic AI RAG的測試版本也已經兼容AMD的銳龍AI 300系處理器,可以讓NPU直接運行Llama2-7B模型,在測試成績給力的同時也讓能耗大幅下降。BlackMagicdesign則表示利用AMD的AI算力,可以讓生產力軟體的效率大幅提升,部分特效的處理時間甚至高出了4倍,從而滿足影片工作者的工作效率。

同時包括Adobe、Amuse、Ollama、Huging Face等軟體廠商也已經實現了Ryzen AI的支持,總計超過了100餘款。當然第三代Ryzen AI還不是終點,AMD還推出了North Star計劃,未來AMD的Ryzen AI將會支持300億參數的大模型,實現3000的語義長度,並且首個Token的生成時間也將縮短到100ms,每秒可以生成100個Token,遠超現在的數據,顯然AMD未來認為AI能夠帶來前所未有的能量,而自己的處理器也是為AI而生。

這一次的AMD Tech給人感受最深的就是整個會議都圍繞著AI打造,畢竟現在AI的發展實在是太過出乎意料,尤其是當資本大幅湧入之後,AI模型日新月異,大家對於AI的算力要求也達到了前所未有的程度,AMD推出的基於Zen 5架構的處理器,可以很好地應對消費級的AI應用,從而為用戶帶來不同尋常的使用體驗,自然也能在這場AI時代中占儘先機。


不過我們也看到,AI發展得越快,算力要求也就越高,部分應用像是Sora、Stable Diffusion 3.0都對AI提出了極其嚴苛的算力需求,而這已經不僅僅是APU可以解決的,不過可以肯定的是,今後的很長一段時間內,APU等處理器所負責的AI應用覆蓋面將會越來越廣,而一些高要求的AI應用,還將採用CPU與獨立顯卡搭配的組合,從而讓功耗以及效率保持一個完美的平衡。