Top500超算與摩爾定律偏離漸遠，誰是真正的性能強者？

一周前，在2023年全球超級計算大會（SC23）上，備受關注的第62屆TOP500超算排行榜正式揭曉。

贊助商廣告

彼時，來自世界各地的超算專家、企業家、學者和研究人員齊聚美國丹佛。作為世界高性能計算領域的頂級盛事之一，本次大會吸引了超過14000名參會者和438家參展商，數量創下歷史新高。

在最新的榜單中，美國橡樹嶺國家實驗室的Frontier連續第四次奪冠，並且是當前已公開唯一的百億億級超算（也叫E級超算）。這意味著，其一小時的計算能力，相當於全球80億人聯合計算上萬年的成果。

榜首雖然沒變，但前十的格局已經出現了顯著變化。美國超算占據前三甲，阿貢國家實驗室的Aurora空降第二名，安裝在Microsoft Azure雲平台的Eagle躋身第三，而日本理化學研究所與富士通開發的「富岳」，則從第二名滑落至第四。

全球超算榜單TOP10

雖然榜單排名總是最吸引人眼球的，但榜單更有意義的是呈現了各種新興系統架構的特點，讓我們看到計算、記憶體、互連等要素如何在不同的系統中協同作用。這些上榜的超算在性能、架構和計算效率方面都值得我們深入去探究。

本文將對榜單TOP30超算的數據進行匯總分析，從而歸納出當前超算領域第一梯隊的特點。

超算市場高度不平衡，技術進步集中於強者

首先，我們需要先回顧一下過去30年來，以高性能LINPACK基準測試衡量的TOP500榜單中第一名、最後一名以及總體的超算性能發展軌跡：

這張圖表顯示了從1990年到2025年超算性能的趨勢。圖中綠色圓點線（Sum）代表所有上榜的超算性能總和，其增長顯示了整體超算性能的提升。金色三角形線（#1）代表排名第一的超算性能，藍色方塊線（#500）代表排名第500的超算性能。

可以看出，Top500的總算力與摩爾定律偏離得越來越遠，摩爾定律告訴我們性能將會呈指數級增長。而事實上，我們所面對的是一個高度不平衡的市場，其中超大規模的電腦占據了總體算力的大部分，其餘的部分由大量性能較低的電腦構成，兩者之間差距十分明顯。

贊助商廣告

下圖更直觀地顯示了超算市場的不平衡狀態，這是根據TOP500數據創建的一個上榜系統樹狀圖，它展示了今年11月榜單中的超算系統和它們所用的不同技術架構。每個方塊代表一台超級電腦，不同的顏色代表使用不同計算引擎的「陣營」。

從左上角開始順時針來看，橙色方塊代表日本的富岳，採用富士通A64FX Arm晶片，擁有極強的向量計算能力。

最大的橄欖綠方塊代表美國橡樹嶺國家實驗室的Frontier，由HPE和AMD打造。周圍的淺綠色為同樣採用AMD GPU的其他系統。

湖藍色方塊代表阿貢國家實驗室的Aurora，Aurora是首個部署英特爾Max GPU的超算。值得注意的是，此次Aurora測試時，只大約運行了一半的CPU和GPU。

其正下方的紫色方塊是2016年基於神威SW26010處理器的太湖之光（架構與A64FX類似，屬於搭載大量向量引擎的CPU），目前部署在中國無錫的國家超算中心。

向左來到棕色英偉達A100的區域，其中最大的方塊是義大利CINECA研究中心的Leonardo，由法國科技公司Atos打造。

深藍色區域包含了橡樹嶺國家實驗室的Summit以及蘿倫斯利弗莫爾國家實驗室的Sierra。兩台超算都採用了IBM Power 9 CPU和NVIDIA V100 GPU。

左下角是首次登場的微軟Eagle，運行在微軟Azure雲中，搭載了英偉達Hopper H100 GPU加速器。

不難發現，排名前30的超算中湧現了不少新面孔。其中，備受關注的Aurora超級電腦由HPE製造，該系統搭載了英特爾的CPU和GPU，同時採用HPE自家的Slingshot互連技術。目前Aurora系統還在調試階段，預期最終會遠超現在的算力測試水平。

另一台世界矚目的超算Frontier，採用了AMD定製的「Trento」Epyc CPU和「Aldebaran」MI250X GPU，且全部採用HPE Slingshot 11實現互連，目前的HPL性能穩居世界第一。

但值得注意的是中國也安裝了兩到三套新的超算系統，或許已經超過了Frontier，甚至有能力與充分調整後的Aurora競爭。雖然這些系統還未正式公布，這裡我們也將其列入了前30名單。

贊助商廣告

計算效率：超過75%已是優秀，純CPU系統更高

上表中，淺藍色框的超算系統，採用搭載了大量向量引擎的CPU，包括富岳和太湖之光（海洋之光也是）。灰色框中的超算則是僅使用CPU的系統，其餘22台超算（不包括黃框內的兩台中國超算）均採用CPU＋加速器的混合架構組合，且大多選擇了英偉達或者AMD的GPU。

而中國的兩套超算系統——位於天津超算中心的天河三號系統和無錫國家超級計算中心的海洋之光系統，據傳聞，天河三號的峰值性能將達到2.05百億億次，HPL性能約為1.57百億億次，這意味著也許它才是過去幾年來的全球最強超算。而海洋之光的峰值性能約為1.5百億億次，HPL為1.22百億億次。

在超算領域，計算效率是衡量系統性能的重要指標，尤其是考慮到計算引擎成本的高昂。這裡，我們採用HPL性能與理論峰值性能的比值來評估計算效率，理論上這個比值越高，說明系統架構越優秀。

具體來看，Frontier的計算效率為71.1%，而Aurora的計算效率僅為55.3%，約為理論峰值的一半。我們曾經估計，如果Aurora系統的63744個英特爾Max GPU都能發揮出31.5萬億次的算力，那麼峰值性能就會超過2百億億次。但由於其計算效率低下，完全擴展後Aurora也落後於Frontier。如果Aurora能夠將計算效率提升至60%，便有潛力超越Frontier。

相信隨著英特爾和HPE對其開展全面測試和優化，未來Aurora的性能和效率將會進一步提高。目前我們看到的還只是採用英特爾Xe Link互連的初始版本，如今英偉達已經發布了第四代NVLink，AMD也推出第三代Infinity Fabric，升級到更高效的互連技術只是時間問題。

此次榜單前30名中，還有一些超算的計算效率低於平均值，這種情況並不稀奇。許多超算在進入榜單前，或上榜後的一段時間內，都在不斷調優以提高計算效率。比如，我們當初曾聽說Frontier的計算效率一度不到50%，所以它的最終亮相時間比預期要晚。其實每引入一個新技術——無論是CPU、GPU還是互連技術——都可能導致大規模的系統變動。

贊助商廣告

另外，我們觀察到，純CPU系統由於網路層次較少，計算效率通常高於混合架構系統。前30名中純CPU系統的平均計算效率為77.1%，明顯高於平均70.3%的搭載加速器的系統。但是，將並發級別與計算效率相關聯時，我們沒有發現明確的規律，高並發並不意味著低效率。

從數據上看，計算效率超過75%已屬不易，達到80%到85%更是難得。令人驚嘆的是，純CPU的「Shaheen III」集群計算效率高達90%，這是自十年前日本理化學研究所推出超級電腦「京」之後無比罕見的。

其實對於大多數工作負載，HPCG基準測試或許更能反映超算的實際應用性能，它也是TOP500的重要指標之一。但通常HPCG的測試結果遠低於HPL測試，只有幾個百分點。兩者的優劣，還有待進一步研究。