AMD發布「TURIN」EPYC CPU預覽，並擴展INSTINCT GPU技術路線圖

於台北召開的Computex國際電腦展是一年一度的國際技術盛會，旨在展示台灣龐大的計算業務體系。而如今的Computex更是成為數據中心IT領域的中場大秀。而作為從台灣走出的影響力領袖，英偉達和AMD的CEO近年來也開始在Computex上發表主題演講，藉此機會發布新產品以及技術發展路線圖。

贊助商廣告

有趣的是，AMD公司CEO蘇姿豐其實是英偉達聯合創始人兼CEO黃仁勛的遠房表親。黃仁勛在Computex 2024開幕之夜上發表了主題演講，公布了英偉達從當下到2027年的計算與網路技術路線圖。蘇姿豐則作為會議首日開場嘉賓，與黃仁勛一樣帶來了AMD的晶片產品與路線圖規劃。

蘇姿豐在演講中直奔主題，拿出一半多的時間來討論基於Zen 5核心的新款Ryzen CPU。這些CPU經過調優，可通過神經網路處理器（NNP）實現AI工作負載加速。雖然此類矩陣數學單元最終應該也會出現在數據中心級的Epyc x86 CPU當中，但我們發現此番Ryzen演講公布的Zen 5核心規格相當有趣。Zen 5既是當前Ryzen 9000系列處理器的核心，同時也將為今年下半年推出的Turin Epyc伺服器CPU提供動力。

蘇姿豐表示，Zen 5核心是AMD公司有史以來設計出的性能最強、能效最高的核心，而且完全是從零開始打造而成。

蘇姿豐解釋道，「我們擁有一個並行的雙管線前端，其作用就是提高分支預測準確性並減少延遲。它還讓我們能夠在每個時鐘周期之內提供更高的性能。在Zen 5的設計當中，我們也引入了更寬的CPU引擎指令窗口，以便並行運行更多指令，從而實現領先的計算吞吐量與效率。這一切讓Zen 5與Zen 4相比，指令頻寬增加了一倍，緩存和浮點單元間的數據頻寬同樣增加一倍，AI性能隨之增長一倍，同時可以實現完整的AVX 512吞吐量。」

旗艦級Ryzen 9000擁有16個核心和32個線程，加速後的運行速率為5.67 GHz。Zen 5核心的平均每核指令數年也比以往Ryzen晶片以及「Genoa」Epyc 9000系列處理器中使用的Zen 4核心多出16%。（順帶一提，「Bergamo」Epyc處理器的每個插槽可容納更多核心，但每核心的L3緩存被減半，而且採用所謂Zen 4c的不同核心布局，因此實現了更高的核心密度。）Zen 4代Epyc已經成功提升了AMD在x86伺服器CPU領域的市場份額，蘇姿豐在演講中還專門引用了Mercury Research發布的資訊，結果顯示AMD的出貨量份額已經從2018年Zen 1初代核心「Naples」Epyc 7001系列時的2%，來到Genoa Zen 4核心、Bergamo超大規模及雲CPU乃至基於Zen 4c核心「Siena」邊緣與通信處理器時期的33%。

贊助商廣告

下圖所示，為蘇姿豐手持Turin封裝的照片，其中共包含13個小晶片組件：

以下為Turin晶片（也稱第五代AMD Epyc）的基本饋送與速度參數：

我們對這款最新伺服器CPU了解不多，只知道頂部bin部分將擁有192個Zen 5核心及384條線程，將被裝入與Genoa Epyc 9004相同的SP5插槽。Turin晶片可能會被命名為Epyc 9005，並且推出帶有Zen 5c核心的變體，可對接與Bergamo及Siena晶片相同的設備插槽。我們預計其每周期指令數（IPC）將與Ryzen Zen 5晶片大致相同，較Zen 4核心提升15%到20%之間。

而向來活躍主動的蘇姿豐，也在會上帶來了Turin晶片的一些早期基準測試結果。

贊助商廣告

我們將蘇姿豐提供的兩張圖表整合了起來，可以看到單個Turin處理器在NAMD分子動力學應用中運行STMV基準測試時獲得了最佳性能，這裡使用的處理器為128核配置。在該測試中，Turin處理器模擬了2000萬個原子，並統計出其在24個小時之內可以處理多少次分子間相互作用。（令人好奇的是，AMD為什麼沒有使用192核晶片配置，理論上這能使其在NAMD上的性能結果再提高33%。）總而言之，128核Turin晶片的處理能力，大約是64核「Emerald Rapids」至強SP-8592+處理器的3.1倍。

AI吞吐量基準測試則基於Meta Platform的Llama 2模型。該模型擁有70億個參數，以INT4數據格式進行處理，推理令牌生成則設置為50毫秒。根據工作負載，Turin處理器的性能範圍在2.5倍到5.4倍之間。

會上一同公布的還有Instinct GPU技術路線圖，以及當前/未來AMD GPU同當前/未來英偉達GPU之間的性能比較。

蘇姿豐首先介紹了相關基準測試，並重申「Antares」MI300系列已經成為AMD公司有史以來增長速度更快的產品。她最近在華爾街財報電話會議和其他活動中都曾反覆強調過這一結論。之所以增長迅猛，一方面當然是因為其針對HPC和AI工作負載的優化設計讓MI300 GPU在諸多方面都相當類似於英偉達GPU；與此同時，AMD提供的性能優勢以及HBM記憶體容量/頻寬還往往高於英偉達。

蘇姿豐表示，對於面向700億參數Llama 3大語言模型的推理類工作負載，配備8張MI300X GPU的伺服器在性能上約為配備8張H100 GPU加速器的英偉達HGX設備的1.3倍。而在Mistral 7B模型上，單張Mi300X GPU的性能則可達英偉達H100 GPU的1.2倍。

展望未來，蘇姿豐又展示了另一組幻燈片，其中提到MI300系列中CDNA 3架構的推理速度要比「Aldebaran」Instinct MI200系列GPU中應用的CDNA 2架構快約8倍。而對於即將推出的MI350系列GPU，我們猜測其將率先採用CDNA 4架構（甚至搶先於計劃在明年推出的MI400系列GPU），因此推理性能可能相當於MI300中CDNA 3架構的35倍左右。

贊助商廣告

蘇姿豐隨後發出挑戰，表示與英偉達的B200 GPU（預計將在2025年以Blackwell Ultra的名號推出）相比，MI350的記憶體容量將是後者的1.5倍，AI計算能力將是後者的1.2倍（通過FP8、FP6以及FP4精度混合基準測試量化得出）。

下面我們來看更新之後的AMD Instinct GPU技術路線圖：

今年新增的MI325X將擁有更強大的計算能力，同時轉而採用HBM3E記憶體。以下是我們目前知曉的關於這款GPU的所有規格：

它能在多大程度上提升計算能力仍然有待觀察，但設備的有效吞吐量可能會翻倍，設備記憶體將實現倍增，頻寬也將提升30%，在HBM記憶體上達到6 TB/秒。

以下是AMD將MI325X的饋送與速率同英偉達H200進行的比較結果，後者擁有141 GB記憶體複合體，與上代記憶體容量為80 GB的H100相比性能幾乎翻了一番：

贊助商廣告

更重要的是，如今只要採用8塊搭載MI325X GPU的系統板、每GPU配備288 GB HBM3E記憶體容量，即可運行起擁有1萬億參數的大模型。

MI325X將於今年第四季度上市，屆時英偉達也將大量出貨H200並少量供應B100 GPU。

也正因為如此，AMD方面才決定升級至CDNA 4架構並推出MI350X，其基於台積電公司的3納米製程工藝，擁有288 GB的HBM3E記憶體並支持FP6/FP4數據類型。

屆時還可能有MI350A乃至基於MI350的其他變體版本，畢竟AMD公司明確將MI350X稱為「AMD Instinct Mi350系列的首款產品」。MI325X與MI350X採用的記憶體類型和容量相同，區別之處可能在於MI350X中運行的HBM3E可能吞吐速度更快，因此提供的頻寬更大一些——實際數字可能會在7.2 TB/秒左右。

大家可能會好奇，為什麼MI350X在2025年出貨之時不採用HBM4記憶體。但根據現有相關報道，英偉達預計在2026年推出「Rubin」GPU之前也不會使用HBM4記憶體。從這個角度看，我們有理由相信2026年採用「下一代CDNA」架構的首批MI400系列才是HBM4記憶體的理想平台。

目前唯一可以確定的就是，為了能在明年之內進一步提高推理性能，CDNA 4架構已經被引入MI350，這也打破了Instinct GPU代際與CDNA架構級別之間的對應關係。如今2024年已經過去快一半了，這意味著無論MI400系列是要採用CDNA 4.5還是CDNA 5架構，具體技術方案現在都必須非常明確而且接近最終完成。

AMD在伺服器CPU上擊敗英特爾似乎已經成為必然的結果，原因就是後者的代工規劃失誤已經徹底搞砸了其產品路線圖。但要想在伺服器GPU領域迎頭趕上並超越英偉達則沒那麼簡單，但AMD肯定取得了不錯的勢頭，並且將在未來幾年內繼續保持高速前進。如果AMD能夠逐一重現英偉達GPU的性能水平，並在無需修改的前提下承載起英偉達產品所能支持的各HPC和AI軟體堆棧，就如同AMD能夠接管英特爾CPU上運行的Windows和Linux工作負載一樣，那麼AMD從英偉達手中奪取半數市場份額將只是時間問題。當然，這裡還有另一個前提，就是AMD能夠拿到充足的封裝配額和HBM記憶體供應。

贊助商廣告