在今年11月於美國亞特蘭大舉行的SC24會議上公布的Top500超級電腦排名中,比起今年6月在德國漢堡的ISC24會議中發布的榜單,出現了更多的變動,尤其值得關注的是新系統的部署和發展趨勢。
最大的新聞是由由惠普企業(Hewlett Packard Enterprise)構建、搭載AMD混合CPU-GPU運算引擎的El Capitan系統正式上線運行,並且如預期般地奪下榜首,其算力大幅領先美國的其他競爭對手,以及傳聞中中國的超級電腦。
El Capitan算力驚人,AMD Instinct MI300A功不可沒
El Capitan系統的部分算力(目前尚未公布具體規模)已由蘿倫斯利佛摩國家實驗室進行測試,其中包含43,808個AMD Instinct MI300A加速器,並在多項基準測試中取得優異成績,包括自1993年以來用於超級電腦排名的HPL測試。El Capitan參與HPL測試的部分峰值理論性能達到2,746.4 petaflops,遠超先前預期的2.3 exaflops至2.5 exaflops。(此處指的是64位元精度浮點運算。)其HPL測試的峰值持續性能為1,742 petaflops,計算效率達到63.4%。這符合新加速系統上市時的預期效率水準(通常以65%為基準),預計El Capitan在2025年的後續排名中,隨著系統逐步通過蘿倫斯利佛摩實驗室的驗收,將會展現更強的理論算力。
AMD Instinct MI300A架構回顧
AMD Instinct MI300A於2023年12月與其兄弟產品MI300X(搭載8個GPU晶片,不含CPU核心)一同亮相。MI300A擁有3個晶片,共包含24個Genoa Epyc核心,以及6個Antares GPU流媒體處理器晶片,運行頻率為1.8 GHz。在Cray EX系統中,所有MI300A運算引擎都通過HPE的Rosetta Slingshot 11 Ethernet互聯技術相互聯接。據測試結果顯示,El Capitan系統中共有105萬個Genoa核心和近1000萬個GPU流媒體處理器。這無疑需要管理龐大的並行運算能力,但也並非遙不可及。例如,位於中國無錫國家超級計算中心的「神威·太湖之光」超級電腦自2016年以來一直位居Top500榜單,目前仍是全球第15強的超級電腦(至少在參與HPL測試的系統中),其核心總數達到1065萬個。
Top500排名新趨勢:AMD崛起
每一期Top500榜單都包含新舊系統,隨著新系統通過HPL測試並提交結果,算力較低的舊系統將會跌出榜單,即使它們仍在使用中。此外,許多位於美國、歐洲和中國的系統並非以HPC模擬和建模為主要任務,卻也參與排名,因為相關企業及其OEM合作夥伴希望藉此提升排名。雖然電腦集群的HPL資訊很有參考價值,但這會扭曲超級電腦的排名。事實上,長期以來,只有Top50的系統才被視為真正的超級電腦,因此需要尋找更有效的排名方式。
今年6月,我們開始只看榜單中新進入的機器,以此來衡量HPC領域的發展趨勢。本次我們將再次分析2024年11月的Top500排名,觀察近期用戶的採購和測試情況。目前已出現一些有趣的趨勢,我們將持續關注這些變化。
在2024年6月的Top500榜單中,共有49台新系統上榜,這些系統的64位元浮點精度峰值總性能達到1,226.7 petaflops,其中7台基於Nvidia Grace Arm伺服器CPU和Hopper H100 GPU加速器的新超級電腦(它們確實是用於HPC工作的超級電腦)貢獻了663.7 petaflops的峰值性能,占2024年6月榜單添加算力的54.1%。採用AMD Epyc處理器搭配Nvidia GPU的系統占添加算力的8.1%,而採用Intel Xeon處理器搭配Nvidia GPU的系統則占17.5%。此外還有23台全CPU系統,這些系統在許多HPC環境中仍然是必要的,以確保軟體兼容性,但這些系統的總算力僅占添加64位元浮點運算能力的12.1%。
而在2024年11月的Top500排名中,AMD成為HPC領域添加算力的最大贏家。本次共有61台新系統上榜,以下是按運算引擎架構分類的結果:
本次只有4台新的Grace-Hopper系統上榜,且規模相對較小,僅占新系統總峰值性能5,211.6 petaflops的3.8%。
然而,有25台新系統採用Intel Xeon CPU作為主機,Nvidia GPU作為卸載引擎,這些系統的總算力達到969.6 petaflops,占添加總算力的18.6%。有趣的是,戴爾為其自身使用構建了一台名為IronMan的5.3 petaflops超級電腦,採用AMD Instinct MI300A加速器搭配Intel Xeon CPU。(原因不明。)此外,還有11台系統採用AMD Epyc CPU主機搭配Nvidia GPU加速器,總峰值性能為247.7 petaflops。所有搭載Nvidia GPU的系統占2024年11月Top500添加總算力的39%。
El Capitan及其4個搭載MI300A混合運算引擎的兄弟系統在本輪排名中徹底擊敗Nvidia,貢獻了3,134.6 petaflops的FP64算力,占添加總算力的60.1%。此外,由於Eni SpA在義大利部署的HPC6系統(該系統於今年1月報道過,基本上是美國橡樹嶺國家實驗室Frontier超級電腦的縮小版),以及其他2台採用AMD CPU搭配AMD MI250X GPU的系統,添加算力又增加了619.3 petaflops。
綜上所述,AMD GPU驅動了2024年11月Top500添加算力的72.1%。
AMD GPU算力占比首超Nvidia
現在,讓我們將視野擴展到11月Top500榜單中的所有209個加速系統。以下樹狀圖顯示了這些系統的算力分布:
上圖中方塊的大小代表HPL測試的總持續性能。左上角的綠色區域以El Capitan和Frontier為首,包含所有採用AMD CPU和GPU組合的系統。右上角是Nvidia Grace-Hopper系統,藍色、灰色和紅色方塊代表採用各種Nvidia GPU的系統;右下角的青色代表Intel GPU系統(數量很少),而burnt orange色代表純CPU系統。
我們還按加速器類型對榜單上的209個加速系統進行排序,並匯總了各架構的系統數量、峰值teraflops和核心總數:
目前,採用Intel Ponte Vecchio Max GPU加速器的系統只有4個(占Top500的1.9%),但其峰值性能占比達到14%,其中絕大部分來自部署在阿貢國家實驗室的Aurora系統。
採用Nvidia GPU的系統共有183個,占2024年11月Top500加速系統總數的87.6%,但其FP64精度總峰值算力占比僅為40.3%。採用AMD GPU進行主要運算的系統有19個,僅占加速系統總數的9.1%,但其FP64峰值總算力占比高達44.9%。得益於El Capitan、Frontier、HPC6和其他16個系統,AMD在Top500榜單的算力占比上成功超越Nvidia。
縱觀Top500榜單上的所有500個系統,加速系統占41.8%,貢獻了17,705 petaflops總算力的83.4%,以及1.286億個核心(包括流媒體處理器)的55.4%。
預期未來:突破exascale瓶頸,迎接雲計算HPC時代
突破百億億次等級的算力比預期更具挑戰性,這主要是受限於預算和功耗,而非任何技術上的問題。中國的每秒百億億次浮點運算超級電腦「天河三號」和「海洋之光」尚未向Top500組織者提交正式的HPL性能結果,因此未參與排名,但它們證明,如果不考慮功耗和成本,那麼幾年前就能達到百億億次等級的超級電腦。(根據我們一年前的估計,天河三號的FP64峰值性能為2.05 exaflops,海洋之光為1.5 exaflops。)
Top500榜單的算力增長速度正在放緩,入門門檻也越來越高。本次榜單的最低算力要求為2.31 petaflops,而進入Top100則需要12.8 petaflops。儘管El Capitan等大型系統的出現拉高了整體算力,但小型HPC中心的算力增長速度不足以維持Top500算力每兩年增加一倍的趨勢。這可能與雲計算HPC的興起有關,但目前尚缺乏相關數據支持。
結論
AMD在本次Top500超級電腦排名中表現亮眼,El Capitan系統的成功以及AMD GPU算力的提升,都顯示出AMD在HPC領域的競爭力。未來,隨著更多搭載AMD Instinct MI300A的系統上線,AMD有望在Top500排名中繼續保持領先地位,並推動HPC領域的發展。