能源巨頭埃尼集團成功將HPC性能提升一個數量級

全球各大石油與天然氣企業，無疑是最早熱衷於利用先進設備開展HPC（高性能計算）仿真與建模的客群之一。支持他們數十年如一日參與實驗和投資的原因非常簡單：只有提前弄清哪裡有石油和天然氣、哪裡沒有，才能避免浪費大量資金，儘可能增加項目決策的成功概率。

贊助商廣告

雖然各大石油與天然氣巨頭都掌握著相當龐大的HPC系統（而且與國家實驗室類似，往往不止一套），但擁有3.1萬餘員工、在全球76個國家開展業務的義大利能源巨頭埃尼對於HPC的重視和投入仍顯得格外誇張。這家能源企業下轄石油、天然氣、發電/配電業務以及化學精煉業務，並在過去十年間斥巨資構建多台超級電腦。

本周，埃尼集團再次果斷出手，委託HPE和AMD為其位於米蘭西南部弗瑞娜·埃爾博尼鎮的綠色數據中心構建HPC6系統。

我們專門為此製作了一張表格，整理出2013年至2024年期間埃尼集團在該綠色數據中心內部署的HPC系統：

感興趣的朋友還可去（https://www-aicanet-it.translate.goog/en/storia-informatica/calcolo-scientifico-in-italia/eni?_x_tr_sl=it&_x_tr_tl=en&_x_tr_hl=en&_x_tr_pto=sc）回顧埃尼集團自上世紀60年代以來的計算技術發展史。

在此期間，埃尼集團將其旗艦系統的容量擴大了1360倍，作為商業企業來說這樣的HPC投入堪稱飛躍。在2018年與HPE簽訂HPC4合作協議時，我們曾經發文介紹過HPC1、HPC2、HPC3和HPC4系統，當時HPE還沒有收購Cray並獲得相應的互連與系統設計成果。HPC1和HPC2系統由IBM構建而成，隨著2014年底藍色巨人手中的System x伺服器業務被聯想收購，HPC1和HPC2系統合同也隨之易手。其中HPC1是一台純CPU計算設備，但從HPC2開始埃尼集團就走上了CPU加GPU的混合道路。機器中的大部分算力來自GPU，但在必要時，系統也擁有充足的算力，能夠在合理的規模下運行純CPU代碼。

2020年，戴爾拿到了為埃尼集團構建52千萬億次HPC5系統的合同。而在新冠病毒肆虐的2021年，埃尼又與HPE接洽，要求對HPC4系統進行升級。雙方還出人意外地在2021年打造出一套全新HPC4 系統——採用的則是主要為公共事業企業設計的GreenLake計算與存儲設施計費標準。關注者本以為埃尼集團會選擇開發HPC6，而非對上代系統進行升級。但當時的埃尼明顯頭腦清醒，打算等待GPU市場競爭進一步升溫，再由英偉達、AMD乃至英特爾參與HPC6系統的競標。換句話說，HPC4 更像是一種權宜之計，旨在享受GPU廠商上代技術帶來的價格優惠。

贊助商廣告

埃尼集團在利用GPU加速進行油藏建模與地震分析工作負載領域，身處石油與天然氣行業的領先地位。2021年11月，埃尼與Stone Ridge Technology建立了戰略合作夥伴關係，將後者提供的ECHELON動態油藏仿真工具引入自己的全面油藏仿真環境當中。作為石油與天然氣行業的核心充分考慮需求，這類負載全部依賴GPU加速技術的支撐。也正因為如此，埃尼集團過去幾年間對於GPU資源的需求也在不斷增長，包括計劃於今年年內部署到位的HPC6系統。預計HPC6有望亮相ISC24超級計算大會和6月同期發布的Top500超算榜單。

埃尼集團位於米蘭的綠色數據中心採用AMD「Milan」或「Genoa」Epyc CPU，全新HPC6系統則匹配MI250X GPU。

考慮到HPC6的性能只相當於兩年多前由美國橡樹嶺國家實驗室部署的1.68百億億次「Frontier」超級電腦的37%，所以整個安裝部署過程應該會比較順利。

具體來講，HPC6系統基於HPE Cray EX4000液冷機櫃，與Frontier系統中使用的Cray EX235a定製機櫃略有區別，但乍看上去仍頗有相似之處。HPC6系統中共設有28個這樣的機櫃，分別可容納128個節點。但最後一個機櫃中只安放16個節點，因此HPC6系統共包含3472個節點。每個節點只配備一塊64核AMD處理器，我們推測這就是AMD專門為Frontier打造的定製化「Trento」晶片，其運行主頻僅為2 GHz，且運行功耗也遠低於標準64核「Milan」或「Genoa」處理器。但據我們了解，埃尼集團正計劃部署標準Genoa處理器，希望通過其上提供的Infinity Fabric 4.0埠與系統中的AMD GPU保持一致通信。但這一情況尚未得到埃尼方面的證實。

HPC6系統中的GPU計算引擎並非新近發布的「Antares」MI300X加速器，而是延續了Frontier中採用的上一代「Aldebaran」MIX250X GPU。考慮到MI300X晶片擁有顯著的性能（包括性價比）提升，暫時不清楚埃尼集團為何繼續選擇上代產品。這可能是因為AMD今年之內的全部MI300X產能均已分配給各分銷商（主要面向超大規模基礎設施運營商和雲服務商，且相關合同可能去年年中就已經確定），此外蘿倫斯利弗莫爾國家實驗室也幾乎占滿了AMD今年之內的全部MI300A CPU-GPU混合晶片產能。如果AMD仍擁有大量MI250X處理器庫存，且其單次浮點運算成本與MI300X相同，那麼只要運行和散熱空間不是太過緊張，應該可以滿足埃尼集團的負載處理需求。

贊助商廣告

用美國前國防部長Donald Rumsfeld的話來說，GPU就是我們投身AI戰場的武器。

總而言之，HPC6系統已經確定採用上代GPU技術，跟之前的HPC4 系統保持一致。這應該是埃尼集團有意為之，目的是在預算、能效和供貨時間等指標中取得平衡。畢竟作為一套大型系統，埃尼集團必須考慮到還有很多公司願意花高價一口氣採購2萬到5萬張GPU，藉此構建AI引擎。與這類受眾相比，HPC客戶明顯預算不足，而且矢量性能更多關注FP64和FP32算力，跟強調FP8的AI負載有所區別。如果未來FP4運算成為AI主流，那麼雲服務商與超大規模基礎設施運營商的需求將進一步與HPC客戶分割開來。

在HPC6系統的3472個節點中，共容納著13888個GPU，意味著其節點採用與Frontier系統相同的CPU對GPU 1:4比例。但如大家所見，如果著眼於單一Epyc插槽內的8個CPU小晶片和與之一一對應的4個雙小晶片GPU，那麼CPU與GPU的實際比率仍是1：1（Cray就特別在其超級電腦設計中採用1：1的CPU和GPU比例）。

為了將各節點連接起來，HPC6系統將採用Cray的現有Slingshot 11互連。這套互連體系由「Rosetta」交換機構成，這款交換機擁有64個傳輸速率為200 Gb/秒的擴展以太網埠，網卡上匹配的則是Cray「Cassini」ASIC。雖然思科、博通和Marvell推出的以太網ASIC均擁有4倍傳輸帶寬（也就是同等或更高基數下的埠能夠將傳輸速度提升2到4倍），但卻不具備Cray這種以HPC為中心的Slingshot互連融合功能（這種功能在許多場景下也可用於加速AI工作負載）。我們還不清楚HPC6系統中所使用Slingshot網路的具體設計，唯一確定的就是其擁有像Frontier內部的蜻蜓拓撲結構。

埃尼集團宣布，HPC6將擁有超600千萬億次的峰值性能，並可在高性能LINPACK超級計算基準測試中提供至少400千萬億次的持續性能。而如果要把HPC6系統中CPU和GPU的峰值性能分別計算，我們猜測GPU的峰值性能約為664.5千萬億次，CPU的峰值性能則為14.2千萬億，合計總峰值性能為678.7千萬億次。其中GPU（及其HBM內存）占機器總峰值FP64浮點算力的97.5%，成本則占系統總成本的80%左右。

贊助商廣告

下圖所示，為埃尼集團HPC1到HPC6系統隨時間推移的CPU與GPU峰值變化（單位為千萬億次）：

圖中CPU的部分確實難以分辨，而GPU算力的迅猛增長則肉眼可見。下圖所示，為對數坐標下HPC1到HPC6系統隨時間推移的CPU與GPU峰值變化（單位為千萬億次）：

埃尼集團在聲明中表示，HPC6系統採用的液冷技術能夠處理掉系統全部發熱量的96%，而攜帶熱量的冷卻液可進一步用於加熱水溫、為埃尼集團的辦公室供暖。該公司還補充稱，HPC6系統的峰值功率負載為10.17兆伏安。請注意，兆伏安（MVA）與兆瓦不同，是用于衡量設備理論峰值負載處理能力的指標。截至發稿時，我們仍不清楚埃尼集團給出數值的單位到底是10.17兆瓦，還是10.17兆伏安。無論如何，同等功率下兆伏安的數字要大於兆瓦，所以如果10.17的單位確實是兆伏安，那麼兆瓦數字應該更小。相比之下，Frontier系統的額定功率為22.8兆瓦，所以根據網路與存儲規模簡單計算，HPC6的功率應該在8.3兆瓦左右。所以埃尼集團給出的兆伏安單位似乎沒錯。但在討論超級計算系統時，人們大多是以兆瓦為實際功耗單位，所以這裡大家可以姑且採信8.3兆瓦這個推測。

另外，很難說HPC6系統的構建成本是多少。但我們強烈懷疑埃尼集團的採購價格要高於橡樹嶺國家實驗室。該國家實驗室為了構建Frontier系統而砸下6億美元，其中包括5億美元的系統採購成本和1億美元的非經常性工程（NRE）成本。Cray公司早在2019年就已經對外證實，Frontier系統這5億美元採購成本中，有5000萬美元專門購買存儲設備，具體包括11.5 PB閃存層、679 PB磁盤層和專門用於存放元數據的10 PB閃存層。

假設每單位FP64計算成本相同，而且採用的Cray ClusterStor E1000「Orion」並行文件系統磁盤與附加的閃存容量（採用ZFS加Lustre混合文件系統）比例也相同，那麼埃尼集團構建HPC6系統的成本應該在1.85億美元左右。其中存儲成本為1850萬美元。粗略計算下來，這對應著250 TB磁盤加4.3 TB冷艷，再加上專門用於存放元數據的3.7 TB閃存。

贊助商廣告

而作為常規的商業客戶，與橡樹嶺國家實驗室的Frontier政府合同相比，埃尼這家能源巨頭可能還需要額外支付溢價。從歷史經驗來看，溢價係數一般在1.5倍至2倍之間。再考慮到當前GPU市場需求旺盛、但供給側嚴重不足的現實，我們認為埃尼集團很可能需要為HPC6系統支付2.5億至3億美元的構建投入。當然，另外一種可能就是埃尼集團在HPC6項目上享受到了與GreenLake相同的定價優惠，所以把總成本控制在了1.75億美元。具體情況目前無法斷言，後續我們會找機會跟HPE親自求證。

埃尼集團還向我們證實，HPC6系統將在今年年內部署安裝，而HPC4 和HPC5系統計劃在2025年年內正式退役。但在此之前，埃尼綠色數據中心將至少擁有幾個月的空前繁盛期——其總FP64性能將較兩年之前提高10.8倍。而如果把衡量標準從FP64矢量計算換成FP64矩陣數學，那麼GPU還能把成績再提高1倍。