全球超算500強：誰能從理論峰值中發掘出更多真實性能？

在每年6月和11月兩度發布的全球超級電腦Top500榜單當中，最令人興奮的並不是前三甲位置的興衰更替——當然，這也非常有趣，但Top500的真正意義在於呈現各種新興系統架構，讓我們意識到計算、記憶體、互連、儲存及預算這套複雜的組合如何在不同系統、行業乃至國家層面發揮作用。

贊助商廣告

以往，人們大多會關注榜單上的前十名機器，然後再深入研究Top500中的統計學概率。但這一次，本文將收集榜單上前30名機器相關數據及性能指標，希望藉此總結當前HPC超算領域第一梯隊選手們的共性。

但在此之前，我們首先需要回顧用高性能LINPACK基準測試衡量的榜單冠軍及Top500全體超算的性能發展情況，外加過去30年來歷次伴音所代表的計算總容量。結果匯總如下：

可以看到，圖中的結果並不符合摩爾定律曲線。摩爾定律告訴我們，性能應該可以呈指數級增長。但必須承認，我們面對的是一個高度不平衡的市場（至少從向Top500榜單提交的HPL測試結果來看並不平衡），其中超大規模機器占據了榜單中總體算力的很大比例，而且高低性能機器之間存在著很明顯的斷崖式差距。

以下是使用Top500資料庫及圖形軟體創建的，按架構劃分的上榜系統樹狀圖，也非常直觀地呈現出這種不平性現實。每個廣場代表一台機器，不同顏色則代表2023年11月榜單當中對應的特定計算引擎陣營：

我們從左上角開始順時針來看，最大的深橙色廣場代表日本RIKEN實驗室的「富岳」系統，採用富士通A64FX Arm晶片，擁有極強的向量計算能力。接下來的深綠色方塊代表Frontier機器，而周圍的淺綠色則為同樣採用AMD GPU的其他系統。五點鐘位置的藍色方塊是半套Aurora系統的測試結果，其正下方的紫色方塊是2016年基於神威SW26010處理器的「太湖之光」系統（架構與A64FX類似，屬於搭載大量向量引擎的CPU），目前部署在中國無錫的國家超級計算中心。向左來到英偉達A100的地盤，其中最大的方塊代表由Atos為義大利CINECA打造的「Leonardo」系統。繼續前進，六點半位置的深藍色區域不僅有IBM，還包括橡樹嶺國家實驗室的准百億億次「Summit」機器以及蘿倫斯利弗莫爾實驗室的「Sierra」系統。到左下角，我們可以看到名為「Eagle」的微軟新系統，它運行在微軟Azure雲中，不僅是Top500官方排名中的第三大超級電腦，目前也是搭載英偉達「Hopper」H100 GPU加速器的最強超算。

贊助商廣告

通過上面這幅性能發展圖，可以看出排名前30的區間內出現了不少新面孔，共同將Top500超算系統的總和64位浮點性能推向新的高度。值得注意的是，其中也出現了人們睽違已久、由HPE打造的「Aurora」超級電腦。該系統配備英特爾的CPU與GPU計算引擎，同時採用HPE的Slingshot互連技術。更具體地講，此次上榜的還只是Aurora的「一半」，因為該機器的理論幣值2性能將一舉超越2百億億次。只是作為一套全新架構，目前Aurora系統仍處於調整期，相信最終成績將遠高於目前得到的算力結果。

至於橡樹嶺國家實驗室的「Frontier」系統，則由AMD定製的「Trento」Epyc CPU加「Aldebaran」MI250X GPU構建而成，且全部採用HPE Slingshot 11實現互連，目前的HPL性能穩居世界第一。不過中國正在組裝兩到三套新的超算系統，預計其性能有能力與Frontier乃至充分調整之後的Aurora機器相媲美。所以雖然還未公布，但這裡我們也將其列入前30名單。這裡初步採用Hyperion Research兩年之前提供的預期峰值與HPL性能，之後有真實數據後我們將對表格進行更新，從而準確反映實際情況。

在上表中，淺藍色框中的機器使用了特殊的加速器，其本質就是在單插槽處理器上塞進CPU和更大的向量計算引擎。富岳和太湖之光都是這麼做的，也包括海洋之光。灰色框中的機器則是僅使用CPU的機器，或者至少部分機器只使用CPU。其餘22台機器（不包括黃框內以紅色粗斜體標記的兩台中國准百億億級超算）均採用CPU與加速器的混合架構組合，且大多選擇了英偉達加速器或者AMD GPU。

如果中國最終公布位於天津國家超級計算中心的「天河三號」系統的測試結果，而且傳聞確定屬實，那麼該系統的峰值性能將高達2.05百億億次，HPL約為1.57百億億次。根據兩年之前SC21時的相關報道，這意味著天河三號才是過去幾年來的全球最強超算。至於無錫國家超級計算中心的海洋之光系統，其峰值算力大致為1.5百億億次，HPL則為1.22百億億次，根據已經發表的相關論文比照來看，這些傳聞數字基本屬實。由此來看，兩套系統應該都超越了目前的Frontier。

贊助商廣告

考慮到超級電腦中的計算引擎都很昂貴，所以我們對其計算效率也保持著高度關注，也就是HPL性能與理論峰值性能之間的比率。比率越高，就證明架構質量越好。當然，我們也清楚將HPL作為唯一性能指標並不足以全面描述超算系統的實際表現，但考慮到手頭可用的資源和資訊都比較有限，這已經是我們能夠找到的、相對最靠譜的系統架構與規模橫向比較抓手。

具體來看，我們注意到全新Aurora機器上的HPL效率為理論峰值的55.3%（也就是大約一半），這樣的結果似乎達不到阿貢實驗室、英特爾和HPE的心理預期。早在今年5月，我們就曾經估計如果「Ponte Vecchio」Max GPU貢獻的總算力為31.5千萬億次（Aurora機器共安裝有63744個GPU），則其峰值性能應該會來到2.05百億億次。但考慮到其計算效率如此低下，純靠橫向擴展而來的Aurora機器在HPL測試中只獲得了1.13百億億次算力，甚至不及Frontier的1.17百億億次。如果能將計算效率提升至65%左右，那麼Aurora應該可以來到1.31百億億次，而70%的效率則對應1.41百億億次。

我們認為，隨著英特爾和HPE對這套系統開展全面測試，Aurora應該還有把HPL進一步推高的潛力。目前我們看到的還只是採用英特爾Xe Link互連的初始版本，藉此將Max GPU相互對接再接入各個Aurora節點中的「Sapphire Rapids」至強SP HBM處理器。與此同時，英偉達已經發布了第四版NVLink，AMD的第三版Infinity Fabric也已亮相。升級到更高效的互連技術顯然需要時間。

在2023年11月這份榜單的前30名中，還有其他一些機器的計算效率低於平均水平。但這也實屬平常，很多系統在首次上榜之前、甚至在上榜一段時間之內，都在努力尋求提升計算效率的可行途徑。例如當初我們對Frontier翹首以盼時，就曾聽說它的計算效率還遠不到50%，所以其最終亮相時間比原計劃要晚。對於超算系統，新CPU、新GPU乃至於新型互連技術的引入，都將引發規模龐大的整體改動。西班牙巴塞羅那超級計算中心的「MareNostrum 5」系統和荷蘭Nebius AI「ISEG」系統的加速器集群（ACC）也都有過類似的經歷。

贊助商廣告

我們估計，由於涉及的網路層數較少，所以純CPU機器天然擁有更高的計算效率。事實上，如果對前30名中這8套純CPU系統的計算效率取平均值，則HPL與理論峰值性能間的比率為77.1%，遠高於搭載加速器的超算系統的70.3%均值。

但如果按照並發規模來核定計算效率，則很難找到明確的模式，所以說並發級別更高並不一定會拉低計算效率。

純CPU機器與混合架構在HPL測試的計算效率上差別很大，我們強烈懷疑這跟調優經驗和架構特性有很大關係。當然，也許其中還涉及其他影響因素。

在將結果放入對數坐標系後，還是看不出什麼明顯的規律。

有時候，知識的要旨不是知道某物是什麼，更多是知道某物不是什麼。更高的頻寬和更低的延遲（當然也要可以預測）似乎是決定性能的重要因素。從目前的榜單看，計算效率能超過75%就已經是優等生了，而來到80%到85%的系統則是優中選優。更驚人的是，純CPU「Shaheen III」集群的計算效率高達90%，我們真心好奇沙烏地阿拉伯阿卜杜拉國王大學的技術人員到底是施了什麼魔法。自從十年前RIKEN實驗室打造的「K」超級電腦之後，我們已經很久沒見過效率如此誇張的超算選手了。

當然，我們也好奇HPL性能跟HPC在實際模擬/建模工作負載中的性能之間，到底有多大的關聯性。對於大部分工作負載，HPCG基準測試可能才是更好的衡量標準，但它的問題是會瞬間吞噬掉恐怖的算力、再給出一個讓人難以接受的極低計算效率（經常低至個位數）。到底孰優孰劣，恐怕還需要進一步探索。