ARM NEOVERSE路線圖發布：CPU設計出爐，大型GPU缺席

注意，劇透警告！

Arm Neoverse數據中心計算路線圖剛剛迎來一系列新鮮元素，遺憾的是數據中心級獨立GPU加速器仍然缺席。另一大備受期待但仍無動靜的則是矩陣數學加速器，意味著在英特爾（以及Habana Labs）、SambaNova Systems、Tenstoreent、Groq以及Cerebras Systems等廠商積極行動的同時，Arm陣營對此依舊按兵不動。

贊助商廣告

這，不得不說是種恥辱。

考慮到英偉達目前憑藉GPU技術優勢對市場和利潤空間的瘋狂收割（事實上，英偉達差點成為Arm公司的實際持有者；如果當初其400億美元收購Arm的交易獲得全球監管機構的批准，那麼很可能會在自家GPU上採用Arm的授權技術），整個世界無疑正在期盼Arm能夠拿出一款更便宜的替代品，用以抵消英偉達現款「Hopper」H100/H200以及即將推出的「Blackwell」B100/B200獨立GPU產品那恐怖的售價。事實上不光是英偉達，就連AMD的現款「Antares」Instinct MI300和將要投放市場的Instinct MI400獨立GPU，也讓客戶們直呼越來越用不起。

說到這裡，大家心裡肯定都有疑問：本文為什麼單單不提英特爾的獨立數據中心GPU？這是因為除了在阿貢國家實驗室「Aurora」超級電腦中使用的GPU之外，英特爾的「Ponte Vecchio」Max系列GPU還並不能算獨立GPU市場上真正的頭部選手。面對火爆的市場需求，英特爾家的GPU確實也能達到造出多少就賣掉多少的效果——但很遺憾，英特爾並沒有足夠的GPU產能，而且他們在短時間內也無法將Max系列GPU與Gaudi矩陣加速器相融合以打造出更具競爭力的產品。

而且這是一條一步慢、步步慢的殘酷賽道。谷歌已經打造出自己的GPU，亞馬遜雲服務手中則掌握著Trainium和Inferentia，微軟坐擁Maia，Meta Platforms正在開發MTIA系列。就數據中心基礎設施收入來看，已經有近半數市場空間選擇另起爐灶。在這樣的背景下，嘗試建立新的GPU或者矩陣架構有著很大風險，所以Arm才遲遲沒有下場。但換個角度來講，也正是由於存在巨大風險，Arm才成為唯一應該下場並有取勝可能性的技術力量。

贊助商廣告

如果非要說誰有勇氣開發一款能與英偉達設備全面兼容的GPU，那我們也許能從當初IBM與Amdahl、富士通和日立之間的大型機市場對抗中找找答案——儘管經歷多起反壟斷訴訟，但IBM最終還是贏得了這場戰爭。英特爾和AMD也差不多，雙方在數據中心x86架構上爆發過史詩級的對抗，直接搞得AMD幾乎九死一生。

可惜的是，如今的Arm似乎並沒有這樣的野心和抱負，其他廠商也沒有。似乎正是當初的大型機和x86之爭讓大家看清了現實。

加上Arm本身是一家上市企業，由於股票發行量較小加上市場的非理性追捧，導致其市值甚至超過了母公司軟銀。Arm堅持將自家CPU推向AI訓練體系的各個環節，並強調Neoverse CPU設計方案也擁有強大的推理能力。下面這張圖來自Arm 2024 Neoverse路線圖簡報會，其中的內容已經清楚表明了一切：

知己知彼、別惹麻煩、見好就收。

公平地講，圖中全部三款CPU及其原研加速器均基於Arm架構，而且下方列出的三款DPU中也至少有兩款採用Arm架構。（我們還不確定Azure Boost是個什麼情況，但如果裡面搭載有CPU，那也幾乎必然是基於某種Arm核心。）如果在2011年那會看，也就是Arm剛剛向x86的數據中心大本營發起衝擊的時候，這張圖簡直堪稱痴人說夢。但事實證明Arm的數據中心CPU野心是嚴肅的，其產品在超大規模基礎設施運營商和雲服務商數據中心內的崛起就是最好的證明。

但我們還期望Arm能做得更多，比如說承接起數據中心內那複雜且獨特的AI工作負載。甚至有一種聲音，認為英偉達是早早就意識到生成式AI的巨浪即將到來，因此當初才願意為Arm掏出400億美元，目的就是靠收購將這位潛在的競爭對手邊緣化，避免這家IP授權公司打造出殺手級的GPU產品。

就連Arm自己發布的蛛網圖，也涵蓋數據中心內多種常見工作負載的性能指標：

然而時間已經來到2024年，我們從Arm路線圖中看到的仍主要是對原有方案的擴展，包括各類Neoverse核心類型的延續，以及計算子系統（CSS）授權封裝許可（這些封裝許可將適用於高性能V-級核心，以及已經於去年夏季伴隨「珀爾修斯」N2核心發布的「Genesis」封裝IP）。

贊助商廣告

微軟的128核Cobalt 100處理器已確定基於Gensis CSS N3設計，我們強烈懷疑傳聞中的谷歌「Maple」Arm伺服器CPU也將基於CSS計算子系統打造——比如說基於該許可協議的「波塞冬」V3核心或者「赫爾墨斯」N3核心。具體如何選擇，很大程度上取決於谷歌想要實現怎樣的目標。我們認為超大規模基礎設施運營商和雲服務商一定會在其數據中心內混合部署N核與V核，並在邊緣場景下部署E核。從過往產品來看，英偉達的「Grace」CG100和亞馬遜的Graviton 4就是基於「得墨忒耳」V2核心。

這裡我們將深入剖析這份Neoverse CPU路線圖，而且以2022年9月的路線圖版本為起點進行回顧。坦率地講，當初那份路線圖反而比2024年的最新版本包含更多細節：

整個Neoverse規劃案已經延續六年，在最初誕生的2018年10月，其基本思路只是每年開發一種新的核心與伺服器平台，確保能跟台積電製程工藝的發展保持同步。2019年的Ares「阿瑞斯」平台採用7納米電晶體蝕刻技術，2020年的Zeus「宙斯」則計劃採用增強型7納米工藝，2021年的「波塞冬」打算使用5納米製程工藝。而且比跟製程發展保持同步更重要的是，人們真心希望Arm能夠在可預見的未來，穩定在每一代新產品上保持30%的性能提升比例（部分由架構實現、部分靠功能實現）。

但之後的Neoverse路線圖具體劃分出了N、V和E核三種核心，並拉開了每一代核心的市場投放時間。例如，「波塞冬」V3核心最初計劃在2021年推出，但在兩年前的路線圖中被調整為更加模糊的「2023年後」，直到如今才真正上市。不過這種變化也在情理之中，畢竟新冠疫情在全球範圍內的爆發大大擾亂了晶片供應鏈與開發計劃，Neoverse路線圖背後真正的推手——各超大規模基礎設施運營商和雲服務商所受影響尤其嚴重。

但我們相信，隨著Neoverse戰略的持續推進，Arm及其客戶的發展都將重新回歸正軌。

贊助商廣告

下圖所示為去年公布的Neoverse路線圖，僅供大家參考。這份路線圖隨著計算子系統（CSS）的發布而推出，為了清晰起見，我們特意加注了核心代號：

我們曾在之前的文章中提到，英偉達最初部署的「得墨忒耳」V2核心需要藉助CSS封裝，但現在看來並非如此。好消息是「波塞冬」核心及其CSS封裝現已推出，「赫爾墨斯」N3核心及其CCS封裝也如期亮相，具體參見2024年的Neoverse路線圖：

之前我們並不清楚N3和V3 CSS封裝將有何代號，所以猜測如果Arm繼續按《舊約》中Genesis「創世紀」的傳統選擇名稱，那麼答案很可能是Exodus「出埃及記」和Leviticus「利未記」。但現在真相揭曉，Arm選擇的分別是CSS V3「Voyager」和CSS N3「Pioneer」。

在2024年的路線圖上，Arm省去了X軸上的年份標記，因此我們不清楚後續「阿多尼斯」V4核心及其「Vega」CSS封裝，包括再下一代「狄俄倪索斯」N4核心及其「Ranger」CCS封裝，乃至後續「利西烏斯」E4核心的具體推出時間。Arm Neoverse部門高層承諾在未來提供更多細節。

下面來聊聊目前已經實錘可靠的消息。CSS N3封裝將以32個N3核心起步，搭載雙DDR5記憶體控制器、雙I/O控制器以及可選晶片間互連。這樣如果將兩套封裝計算複合體共同接入同一插槽，則可提供64個N3核心。這些N3核將根據最新Armv9.2規範構建而成。

關於N3核心和CSS N3封裝的製程工藝也未披露，但我們相信Arm會在5納米、台積電的3納米製程中做出選擇，或者與三星和英特爾同類產品的製程保持一致。

贊助商廣告

上圖中的數據顯示，N3 CSS封裝可以在40瓦熱設計點下提供32個核心，這強烈暗示整套設計很可能將採用台積電的3N 3納米製程工藝。

據Arm介紹，N3封裝還可縮小至8核形式，可能配備單DDR控制器加單I/O控制器。根據之前2022年9月的路線圖，我們懷疑N3核心將被放入支持DDR5記憶體、PCI-Express 6.0外圍控制器以及CXL 3.0 coherency overlay的封裝當中。但如果圖中所示的CSS V3封裝屬實，那麼實際採用的可能仍是上代PCI-Express 5.0與CXL 2.0（我們僅做猜測，並非最終結論）。

我們不清楚N3核心上的向量單元有多寬，也不明確其具體數量。但如果N3核心想要在CPU上執行部分AI訓練和各類AI推理負載（Arm顯然堅定要走這條路線），那麼與之前的N2核心相比，N3就必須得到增強。比較來看，N2核心擁有雙128位向量單元，每個時鐘周期能夠執行四次FP64運算，再做分解即可得出混合精度性能。雖然Arm沒有透露，但我們估計N3核心中也可能添加一個矩陣數學單元——或者叫張量核心。

「波塞冬」V3核心也有望以類似的方式得到增強。從歷史規律來看，其向量和矩陣運算能力應該會達到「赫爾墨斯」N3核心的兩倍，但這同樣只是猜測。「宙斯」V1核心採用雙256位向量單元，「得墨忒耳」V2核心則改為四128位向量單元；二者每個時鐘周期都能執行8次FP64運算，但V2核心的設計效率更高。這也讓我們不禁好奇，V3核心將會朝哪個方向繼續推進。採用四個256位向量單元的可能性不大，畢竟V1採取的就是這種設計；八128位向量單元就更怪了，因為英特爾在其「Sapphire Rapids」至強SP CPU中就是用這種方式建立起AMX矩陣數學單元。

無論如何，基礎CSS V3構建塊將包含64個V3核心，搭配6個DDR5控制器、4個PCI-Express 5.0 I/O控制器加上雙晶片間互連。從2022年9月的路線圖上看，V3這代核心有可能會採用PCI-Express 6.0和CXL 3.0。但在推遲之後，二者恐怕要到V4甚至是N4代晶片才可能實現了（也有可能先在N3上實現新PCI-E加舊CXL組合，而V3完全沿用舊組合）。

贊助商廣告

據Arm介紹，這款CSS V3複合體的性能將較現有CSS N2複合體提升達50%，且兩個複合體可放入同一封裝，使得單插槽核心上限擴展至128個。最令我們驚訝的是，單插槽居然無法擴展至256個核心，但這很可能是受到CSS封裝的限制、而非V3架構本身不夠給力。不過考慮到技術或者經濟層面的現實意義，估計也不會有人選擇單插槽256個V3核心的配置。

V3封裝將支持DDR5記憶體或HBM堆疊記憶體，我們也一直在關注全球各大CPU廠商對於HBM記憶體的支持進展。畢竟只要成本不是問題（特別是在生成式AI如此火爆的當下），HBM記憶體給HPC和AI工作負載帶來的增益可謂顯而易見，廠商當然也願意抓住這波機會。

Arm還特別強調，CSS V3封裝的設計目標是與加速器緊密連接起來。至少從Grace-Hopper超級晶片複合體的設計思路來看，英偉達肯定非常重視這種直連能力。