下一代王者「El Capitan」，能否力壓氣勢逼人的AI超算新貴？

就在剛剛過去這一周，蘿倫斯利弗莫爾國家實驗室正在緊鑼密鼓地為其「El Capitan」超級電腦安裝組件。如今的問題已經不在於El Capitan能否成為全球最強大的新一代超算系統（已經有照片證明了這一點），而是這頂桂冠在它頭頂能保持多久。

贊助商廣告

也許答案是相當長一段時間。畢竟每當談到由AI初創公司資助的大規模AI超級電腦時，一句用來描述1990年代IBM系統的老話似乎恰如其分：「性能仍有空間，但預算限制了想像。」

就目前來看，全球各國家實驗室的主要HPC中心都不會部署持久設備——就是說不會出現長期穩定運行，能夠在Linpack雙精度浮點性能測試方面衝擊Top500榜單、甚至一舉擊敗El Capitan的雲實例。根據我們的簡單計算，El Capitan的FP64峰值性能可能達到2.3百億億次左右，約比橡樹嶺國家實驗室FP64性能為1.68百億億次的「Frontier」超級電腦高出37%。事實上，Frontiner自2022年6月上線以來，就一直把持著超算Top500榜單的頭把交椅。

而早在2018年簽訂CORAL-2合同之後，我們就預計Frontier採用定製版AMD CPU與GPU後的FP64峰值性能將達到1.3百億億次，建設成本約為5億美元；而El Capitan將採用現成的商用AMD CPU與GPU，同樣以5億美元成本帶來1.3百億億次峰值性能。與此同時，改進後的「Aurora A21」設備在落地後的性能約為1百億億次，價格則在4億美元左右。全部這三台設備的安裝時間都比人們預期中更晚，而且各家HPC實驗室從2015年起就開始認真規劃百億億次超算系統。就Frontier和El Capitan兩個項目來看，我們認為AMD的性價比要高於IBM和英偉達；因此儘管後兩家公司分別在橡樹嶺和蘿倫斯利弗莫爾實驗室打造了上一代「Summit」和「Sierra」超算系統，新合同恐怕還是會落入AMD手中。當然，這一切都僅僅只是猜測。

但2023年及未來幾年中，發展重點即將迎來變化：超大規模數據中心運營商、雲服務商以及AI初創企業都將成為超算榜單上的主力軍。他們正在構建體量龐大的設備，而英偉達和CoreWeave正在為Inflectin AI開發的設備、還有微軟Azure給OpenAI打造的機器，在低精度AI訓練性能方面將超越以往的大型HPC系統。

贊助商廣告

下面，我們就做點簡單的性能比較，同時看看蘿倫斯利弗莫爾實驗室分享的El Capitan系統裝機照。

牽引拖車正向蘿倫斯利弗莫爾國家實驗室運送El Capitan機架。

作為此番比較的起點，我們先從Inflection AI那套尚未最終定名的系統開始。

Inflection AI的機器看似採用了2.2萬個英偉達H100 SXM5 GPU加速器。根據我們掌握的H100和InfiniBand Quantum 2網路產品定價，如果全部DGX H100節點均配備2 TB記憶體、3.45 TB快閃記憶體、8個400 Gb/秒ConnectX-7網路接口與配套的三層InfiniBand交換結構，那麼系統的整體價格應該在13.5億美元左右。該系統的FP64峰值性能將達到748千萬億次，在目前的超算Top500榜單中能夠排在第二——落後於FP64峰值性能達1.68百億億次的Frontier，但領先於FP64峰值性能為537.2千萬億次、位於RIKEN實驗室的「富岳」系統。

有些朋友可能覺得採購量這麼大，Inflection AI的系統應該能享受到不少折扣。但在我們看來，目前市場上的需求遠遠超過供給，所以英偉達或者AMD應該不太會給GPU計算引擎多少價格優惠。畢竟他們的伺服器OEM和ODM合作夥伴都沒享受到這樣的政策。所以跟同在美國的百億億次高性能前輩相比，Inflection AI的系統確實非常昂貴、性能水平也相對低了一截。

向蘿倫斯利弗莫爾國家實驗室運送El Capitan機架。

但如果從FP16半精度性能入手，那Inflection AI機器就能達到21.8百億億次，似乎足以驅動那些極為龐大的大語言模型（LLM）和深度學習推薦模型（DLRM）。

目前，還沒人知道為El Capitan提供動力的「Antares」AMD Instinct Mi300A CPU-GPU混合晶片的FP16矩陣數學性能究竟如何。但我們曾在6月時做出過猜測，認為蘿倫斯利弗莫爾實驗室使用的晶片不僅在單一封裝內提供2個CPU塊（取代2個GPU塊）加6個GPU塊，同時還將包含一個超算計算引擎，用以提供超越8個GPU MI300的更高計算性能。（從實際負載來看，蘿倫斯利弗莫爾實驗室確實需要這樣的設計。）如果猜測屬實，那麼在未開啟稀疏數學支持的情況下（Inflection AI在討論自己這台由CoreWeave和英偉達聯合打造的機器時，並沒有提到這點），每個MI300A預計可在2.32 GHz的時鐘頻率下提供1.567千萬億次性能（相比之下，常規MI300部件的時鐘頻率約為1.7 GHz）。

贊助商廣告

我們希望HPE能在EL Capitan系統的每個底座上安裝8個MI300A。如果真能辦到，那El Capitan的計算部規模將達到約2931個節點、46個機櫃以及8行排列。實際情況是否如此，我們將拭目以待。

而且如果我們對MI300A的猜測是正確的，那麼El Capitan大致將擁有2.35萬個MI300 GPU，對應的FP16矩陣數學峰值性能約為36.7百億億次——相當於Inflection AI用風險投資構建的AI系統的1.7倍。

El Capitan機房內的地板需要架高設計，即必須加固地板才能將HPE的「Shasta」Cray XE機架推入並安裝到位。

現在，讓我們來看看傳說中微軟為OpenAI打造的、專用於訓練GPT-5模型的2.5萬個GPU集群。從之前的情況看，微軟Azure HPC與AI總經理Nidhi Chappell曾在3月向我們證實，Azure在其HPC和AI集群中使用的是PCI-Express版本的英偉達加速器，並使用InfiniBand網路將其連接起來。我們假設集群中使用的是英偉達H100 PCI-Express卡，單卡售價為2萬美元，那麼總建設價格就是5億美元。再配備上兩塊英特爾「Sapphire Rapids」至強SP主機伺服器、2 TB主記憶體和一定數量的本地儲存，那每個節點就再增加15萬美元。按照容納這2.5萬個GPU需要3125個節點來計算，相當於額外再花掉4.69億美元。如果英偉達提出的20%原則仍然成立，那麼InfiniBand網路互連帶來的成本就是20%。計算下來，微軟Azure的這套超算系統總成本已經來到12.1億美元。雖然大家也可以給伺服器節點稍微打點折，但按照目前的市場行情來看，38.7455萬美元的單節點成本不會有太多折扣空間，畢竟AI系統正處於熱度最高的上升期。

在關閉稀疏性的情況下，這套微軟/OpenAI集群的FP16矩陣數學峰值性能僅為19.2百億億次。這是因為H100 PCI-Express版本上的流式多處理器較少、只有114個，而SXM4版本則有132個；另外，PCI-Express版的時鐘速率也更低些。總體比較，PCI-Express版的價格要低出11.4%，而性能則縮水11.9%。

與各美國國家實驗室相比，商用超算系統的價格堪稱瘋狂。這是因為世界各地的HPC中心能夠追求更新穎的架構，將自身定位成最終端商業化產品的消費者。但超大規模數據中心運營商和雲服務商則不同，亞馬遜雲科技、谷歌、百度和Facebook雖然也都在構建自己的計算引擎，但其需求主體仍然要靠市場上的現成產品來滿足。所以即使是以50%的誇張折扣來計算，Inflection AI和OpenAI這些超算系統的單位計算成本仍然遠遠高於國家實驗室那邊的水平。

贊助商廣告

一列El Capitan部署完成，可能還有七列有待安裝。

El Capitan的占地面積與IBM為蘿倫斯利弗莫爾實驗室打造的、現已退役的「ASCI Purple」和「Sequoia」超級電腦相同，都在630平方米左右。預計El Capitan在峰值運轉時，自身消耗的電力加冷卻功耗將達到30至35兆瓦。另外，蘿倫斯利弗莫爾實驗室還計劃在2029年左右安裝下一台百億億次超級電腦，屆時二者將並行運行。為此，實驗室已經將數據中心的供電和冷卻容量增加了一倍，預先為兩台性能怪獸的到來做好準備。

相比之下，2005年由IBM製造並在蘿倫斯利弗莫爾安裝的ASCI Purple，在FP64精度下的峰值性能為100千萬億次、功耗約為5兆瓦，預計耗資1.28億美元。El Capitan的性能相當於提高了2.3萬倍，而單位功耗只相當於ASCI Purple的六分之一到七分之一，成本也僅為1/3.9。雖然不一定能保持住這幾十年來超級計算領域所期望的指數級增長，但這仍然是一項了不起的壯舉，繼續證明摩爾定律、大規模封裝、網路、電源和冷卻技術中仍有不少潛力空間可挖。

我們已經迫不及待想要看看El Capitan和阿貢國家實驗室的Aurora A21的真實性能數據。如果正如傳聞所言，英特爾大手一揮、直接將阿貢實驗室5億美元的合同應付款砍掉了3億，那Aurora A21恐怕就是世界上成本最低的AI與高性能計算系統了。但如今最重要的當然不是錢，而是Aurora機器已經全面安裝到位，抓緊時間讓它運轉起來、處理實際HPC和AI負載才是正經。