HPE計劃在2025年全面升級超級電腦陣容

如果大家有意採購百億億次超級電腦，或者購買其中一部分以實現資源擴展，那其實可供選擇的廠商並不太多。畢竟沒有多少公司擁有足夠龐大的資產負債表來儲備製造系統所需的全部配件。

贊助商廣告

除此之外，多年以來高性能計算領域的定價競爭也限制了買家的選擇範圍。由於在高性能計算領域占很大一部分收入流的這類超大規模設備幾乎沒有多少利潤空間，所以能夠繼續堅守下來的這幾十家公司幾乎是在「用愛發電」。對於他們這種毫不利己，專門利高性能計算系統的行為，請允許我們表達深切的敬意。

在美國、歐洲、日本、南美以及中東，HPE的身影可謂隨處可見。這家年輕的公司匯聚了Cray、Silicon Graphics、Convex、康柏以及惠普的優良傳統。主要面向歐洲、南美、非洲以及亞洲市場的Atos Eviden部門，其歷史則可以追溯到Groupe Bull，再往前看甚至跟IBM和NEC頗有幾分相似。富士通的業務明顯集中在日本，而且憑藉著多年前與西門子IT部門的合併，其在歐洲也擁有一席之地。聯想的業務範圍橫跨中國和美國，得益於同IBM以及各超級電腦中心建立的長期合作關係，聯想從十年前從藍色巨人手中買來的System x伺服器部門讓這位中國巨頭在歐洲保留了業務基礎。而在作為大本營的中國，聯想在中國與浪潮、曙光等本地供應商合作組裝超算系統。戴爾明顯也在百億億次系統之外做了不少業務，這使其無需收購Cray或者SGI就能移居全球第二大本地高性能計算設備供應商。而對於各位超大規模基礎設施運營商或者雲服務商，Supermicro、Quanta、富士康以及Invensys等大型ODM廠商都很樂意為其構建一套性能突破天際的超級計算系統。

下圖所示，為Hyperion Research對2023年本地高性能計算伺服器市場的份額劃分，其中還專門囊括了Supermicro以及其他由非傳統供應商製造的高性能計算設備：

這些非傳統供應商大體上都是在構建「AI超級電腦」，這部分業務的茁壯成長也讓他們占據了略高於四分之一的市場份額。至於HPE，其憑藉一己之力以略低於四分之一的市場份額占據絕對主導的地位——這在很大程度上要歸功於Cary在美國和歐洲簽訂的幾份准百億億次系統訂單，外加在美國建造百億億次系統的巨額合約。

贊助商廣告

要想在高性能計算領域求得生存，必然意味著不斷使用新的網路、計算和儲存技術升級系統。HPE就在本屆SC24超級計算大會上，展示了其為明年準備的超級電腦系統升級預案。

按照慣例，讓我們先從網路聊起。隨著替代方案InfiniBand以及商用級以太網穩定在400 Gb/秒的性能基礎之上逐漸升級到800 Gb/秒的速度，第一代「Rosetta」Slingshot交換機ASIC和「Cassini」Slingshot網路接口ASIC那200 Gb/秒的性能表現明顯有些過時。後兩種接口於2019年底交付應用，並於2022年隨著橡樹嶺國家實驗室「Frontier」超級電腦的建立而經歷一波全面升級。Rosetta和Cassini代表的是一種專為高性能計算用例調優的新型以太網，因此需要更長的時間才能將其推向市場並在更多系統中發揮作用。

在商業網路業務層面，以太網的升級每兩年就會進行一次，而這也是英偉達對其以太網及InfiniBand網路設定好的疊代周期。我們將對此拭目以待。畢竟按以往的情況看，InfiniBand的升級節奏時好時壞，更多會與超級電腦的升級周期保持同步。而超算的升級往往相隔三到四年。Cray互連的升級周期則在不同代際間表現出巨大的差異，比如「SeaStar」XT3互連誕生於2004年，「SeaStar2」XT4互連是2006年，用於XT5的「SeaStart2+」互連亮相於2007年，用於XK7的「Gemini」互連是2010年，用於XC的「Aries」則是2012年。

就在Aries與Rosetta這段巨大的空窗期內，英特爾收購了Gemini和Aries的底層技術，並試圖將其與InfiniBand的變體合併以建立Omni-Path。當發現計劃未能取得預期效果時（隨後由Cornelis Networks從英特爾手中收購了Omni-Path，並對其進行合理化調整和改造），Cray決定建立Rosetta並藉此重返高性能計算互連市場。這一次，Cray選擇了以太網作為基礎協議。

我們在2002年1月曾經詳細介紹過Rosetta ASIC擁有32個SerDes塊，在每通道27 Gb/秒的原生信號基礎上進行PAM4多級調製，因此可以提供高達56 Gb/秒的吞吐量。（PAM4每信號提供2比特，而之前的NRZ調製每信號僅提供1比特。）Rosetta晶片採用台積電公司的16納米製程工藝，運行功率約為250瓦，能夠以200 Gb/秒的速率支持64個埠。（在去除數據編碼開銷之後，每埠擁有4條PAM4通道，速度為50 Gb/秒。）

贊助商廣告

而在Cray（現在歸HPE所有）的Slingshot家族這邊，首選的是所謂「蜻蜓拓撲」設計。其中Rosetta-1晶片（也就是人們常說的首款Slingshot ASIC）能夠在三級網路（即頂架、聚合與主幹）中支持最多27.9萬個端點。當然，除了蜻蜓之外，Rosetta還支持胖樹、環面、扁平蝴蝶及其他多川網路拓撲選項。

依託於Cassini 1 NIC晶片，HPE創建了一款200 Gb/秒的適配器，其注入頻寬約為28 TB/秒，二分頻寬約為24 TB/秒。Cassini-1網卡應用到大量巧妙的負載移交設計，旨在儘可能提升高性能計算負載的運轉性能。

這不禁讓我們想到了所謂Slingshot 400，其將從明年秋季起通過「Shasta」Cray EX系統進行交付，具體包括一款新的「Rosetta-2」交換機ASIC和新的「Cassini-2」網路適配器ASIC。這些設備的完整饋送與速率數據尚不明確，但我們推測HPE已經將工藝升級至台積電的7納米製程，藉此降低兩款ASIC的運行功耗。看起來Rosetta SerDes上的本機信號將被加倍，每通道可達56 Gb/秒和112 Gb/秒。因此在可用SerDes數量和埠數量相同的情況下，每埠的速度將倍增至最高400 Gb/秒。Cassini-2的速度可能也會以同樣的方式迎來倍增。如果Slingshot 400在明年的這個時間點上市，並附帶一系列針對交換機和NIC的超級以太網功能，也完全在情理之中。

我們還推測，HPE正按照計劃在未來的Slingshot 800（可能於2027年秋季推出）中實現800 Gb/秒的速度，而更遠之後的Slingshot 1000（可能在2029年秋季推出）的速度將達到1.6 Tb/秒。第一步飛躍相對容易，只需要將本機信號速度加倍即可。但很難想像如果不增加每條通道的埠數量並儘可能降低速度，要如何實現每埠1.6 Tb/秒的速度。實際結果可能是每個埠的通道數量增加一倍，速度為800 Gb/秒，因此信號增強後的實際速度為1.6 Tb/秒。我們唯一可以確定的是，隨著AI爆發推動高端系統的銷售勢頭，以太網必然成為未來的行業標準，意味著HPE早晚會與博通、英偉達以及思科在交換機和適配器ASIC市場上展開頻寬軍備競賽。

贊助商廣告

未來一年的計算升級路徑

說完了網路，接下來我們再聊聊計算。Cray EX和ProLiant XD（此前曾用名為Cray XD）明年都將迎來計算引擎增強功能。

Cray Shasta系統已經存在了好幾年，其以HPE的Slingshot互連為主幹，提供多種計算引擎選項。高性能計算中心能夠以混搭的方式利用這些選項來支持各種工作負載。例如，蘿倫斯利弗莫爾國家實驗室的2.79百億億次「El Capitan」超級電腦就是由Cray EX4000機殼構建而成。事實上，2024年11月全球超算Top500榜單中排名前十的超級電腦中，有七台都基於Cray EX平台；排名前二十的機器中則有十台基於Cray EX。考慮到歐洲高性能計算中心向來不願在歐盟以外採購產品，能達成這樣的比例無疑相當令人矚目。

美國蘿倫斯伯克利國家實驗室的「Perlmutter」系統使用Cray EX235n刀片伺服器。該款刀片伺服器混合了AMD「Milan」Epyc 7763處理器以及英偉達A100 GPU加速順。美國洛斯阿拉莫斯國家實驗室的「Venado」系統和瑞士 CSCS 的「Alps」系統均採用基於英偉達「Grace」CG100 CPU和「Hopper」H100 GPU的Cray EX254n刀片伺服器。美國橡樹嶺國家實驗室的「Frontier」系統、義大利能源集團Eni的「HPC6」系統以及芬蘭科學計算中心的「Lumi」系統均採用基於定製款「Trento」Epyc CPU和「Aldebaran」MI250X GPU的Cray EX235a計算刀片。當然，也有美國阿貢國家實驗室的「Aurora」超算系統選擇了英特爾的定製款刀片伺服器，其上裝有兩塊帶有HBM記憶體的「Sapphire Rapids」至強9470 CPU和六塊「Ponte Vecchio」Max GPU。據我們所知，這些刀片都沒有產品編號，因此無法從HPE處直接訂購。最後，蘿倫斯利弗莫爾的 El Capitan 和它的兄弟機型、來自桑迪亞國家實驗室的「El Dorado」機器均基於混合MI300A計算引擎。該引擎將AMD「Genoa」CPU晶片同「Antares」GPU晶片混合在同一封裝之內，每台Cray EX255a刀片安裝有八個封裝單位。

2025年，EX4000機櫃將推出兩款Cray EX計算刀片：

贊助商廣告

有趣的是，HPE為即將推出的Cray EX4252 Gen2計算刀片選擇了「Turin」Zen 5c晶片，而非緩存容量更大的普版Zen 5，也就是旗艦級Turin處理器的變體。HPE為其即將推出的AMD計算刀片選擇的Epyc 9965 CPU擁有192個Zen 5c核心，基礎時鐘速率為2.25 GHz，而HPE沒有選擇的Epyc 9755則擁有 128個Zen 5核心，運行速率為2.7 GHz。很多朋友可能認為在高性能計算場景中時鐘速率才是最具決定意義的因素，但根據我們的估計，前一款晶片的整數與向量計算性能要比後者高出約四分之一，而且這款性能更高的晶片在性價比方面也比後者高出8.6%。

如此看來，HPE的CPU選擇其實相當明智。

總而言之，每塊刀片伺服器上安裝有8塊Epyc 9965，一台EX400機櫃中可以容納64塊刀片，也就是說單台液冷機架內總計可容納98304個核心。根據我們的計算，按照基礎時鐘速率為2.25 GHz來考慮，每個插槽將具備2.345造成萬億次性能。如果是按純CPU形式來配置，那麼每台EX4000機櫃的基礎性能仍然保持在1.77千萬億次；如果按全部核心超頻計算，則該機櫃的峰值理論性能可達到2千萬億次。在500機櫃的配置下，即可構建起全CPU的百億億次超級電腦。擁有10.51千萬億次算力的K超級電腦可說是有史以來最令人印象深刻的純CPU機器，其位於日本理化研究所，在2011年全面建成時擁有800台機櫃。

但現在已經是2024年，現在只要5台AMD CPU機架（總計49.1520萬個核心）即可與當初的800台Sparc64-VIIfx處理器機架（總計8.8128萬個核心）相媲美。K計算引擎顯然採用高度向量化設計，而且需要消耗大量電力——但其在當時的先進性仍不容置疑。

說回正題，EX4252 Gen 2計算刀片將於2025年初投放市場。

到2025年底，HPE計劃發布EX154n計算刀片，明顯是與英偉達的Grace-Blackwell GB200 NVL4計算系統板的上市時間對標。（圖表中顯示的是145n，但正確名稱應該是154n。）後續我們會另開專題，單獨討論英偉達的NVL4單元。簡單來講，它就是兩塊Grace CPU加四塊Blackwell GPU，共同使用單一系統板上的NVLink埠在六路共享記憶體集群內實現互連。我們猜測官方會稱其為「超級晶片」……

贊助商廣告

GB200 NVL4系統板將允許HPE將224張Blackwell GPU放入單一EX400機櫃中的56塊刀片之內。Grace-Blackwell綜合體則因太過寬大且發熱量驚人，因此Ex4000機櫃必須空出八個計算插槽。可即便如此，滿滿一機櫃的配置也只能將性能提升至略高於10千萬億次，搭配42 TB HBM3E堆疊記憶體。再加上另外52.9 TB的LPDDR5記憶體和8064個Arm架構「Demeter」Neoverse V2核心，即可在NVL4系統板上的連貫NUMA空間內執行計算任務。

就是說僅靠100台滿載NVL4系統板的機櫃，我們就能在FP64精度下突破百億億次的浮點算力大關。這相當於AMD Turin Epycs計算密度的五倍。但也別高興得太早，二者在FP64算力性價比方面的差距其實相當有限。

我們來做一點簡單計算。英偉達Blackwell GPU在以2：1的比例匹配Grace CPU時，其成本可能在4萬美元左右；Epyc 9965的採購成本則僅為14813美元。一整套塞滿Epyc 9965處理器（共計192塊）的EX4000機架將花費大約272萬美元，而英偉達B200機架將花費大約900萬美元。可以肯定的是，性能提升了5倍但價格僅提高至3.3倍絕對是種改進。但跟CPU相比，GPU計算引擎的性價比僅僅高出了35%——即Blackwell的每萬億次浮點運算成本為889美元，而Turin每萬億次浮點運算成本為1362美元。

HBM記憶體的高成本，也至少在原始FP64計算性能方面進一步縮小了CPU跟GPU間的性價比差距。所以問題在於，我們到底能不能發揮出全部性能，又該為其匹配什麼樣的工作負載？為了找出問題的答案，必然需要自主運行基準測試來一探究竟。

除了Cray EX系列的網路和計算升級之外，機器中使用的快閃記憶體也得到了相應提升：

新款Cray E2000全快閃記憶體陣列擁有32塊NVM-Express快閃記憶體驅動器和兩台配備PCI-Express 5.0插槽的儲存伺服器，其讀寫性能達到前代E1000系統的兩倍以上。

最後讓我們來看ProLiant XD系列設備，這些機器主要面向習慣於使用基板管理控制器（在HPE的產品線中對應iLO，即Integrated Lights Out卡）的AI服務提供商和大型企業客戶，而且不需要過度追求機器密集度或者液冷設計。（當然，ProLiant XD還是為機殼中的關鍵組件提供了液冷配置。）

贊助商廣告

HPE近期正在籌備兩款新的ProLiant XD八路加速系統：

其中ProLiant XD680搭載兩塊「Emerald Rapids」至強SP處理器與八塊Gaudi 3加速器，CPU與GPU均來自英特爾。這款產品將在今年年底前上市。這也不難理解，畢竟英特爾自己也承認市場對Gaudi 3的需求低於預期，所以供應量應該是相當充足。

ProLiant XD685則在主分區上配備兩塊AMD Turin Epyc CPU，同時提供八塊英偉達Hopper/Blackwell GPU或者八塊AMD「Antares」MI300X/MI325X GPU的選項。該機器將提供風冷和液冷兩個版本，計劃於2025年年初投放市場。