宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

能源巨頭埃尼集團成功將HPC性能提升一個數量級

2024年01月25日 首頁 » 熱門科技
 

 

能源巨頭埃尼集團成功將HPC性能提升一個數量級

 

全球各大石油與天然氣企業,無疑是最早熱衷於利用先進設備開展HPC(高性能計算)仿真與建模的客群之一。支持他們數十年如一日參與實驗和投資的原因非常簡單:只有提前弄清哪裡有石油和天然氣、哪裡沒有,才能避免浪費大量資金,儘可能增加項目決策的成功概率。

雖然各大石油與天然氣巨頭都掌握著相當龐大的HPC系統(而且與國家實驗室類似,往往不止一套),但擁有3.1萬餘員工、在全球76個國家開展業務的義大利能源巨頭埃尼對於HPC的重視和投入仍顯得格外誇張。這家能源企業下轄石油、天然氣、發電/配電業務以及化學精煉業務,並在過去十年間斥巨資構建多台超級電腦。

本周,埃尼集團再次果斷出手,委託HPE和AMD為其位於米蘭西南部弗瑞娜·埃爾博尼鎮的綠色數據中心構建HPC6系統。

我們專門為此製作了一張表格,整理出2013年至2024年期間埃尼集團在該綠色數據中心內部署的HPC系統:

 

能源巨頭埃尼集團成功將HPC性能提升一個數量級

 

感興趣的朋友還可去(https://www-aicanet-it.translate.goog/en/storia-informatica/calcolo-scientifico-in-italia/eni?_x_tr_sl=it&_x_tr_tl=en&_x_tr_hl=en&_x_tr_pto=sc)回顧埃尼集團自上世紀60年代以來的計算技術發展史。

在此期間,埃尼集團將其旗艦系統的容量擴大了1360倍,作為商業企業來說這樣的HPC投入堪稱飛躍。在2018年與HPE簽訂HPC4合作協議時,我們曾經發文介紹過HPC1、HPC2、HPC3和HPC4系統,當時HPE還沒有收購Cray並獲得相應的互連與系統設計成果。HPC1和HPC2系統由IBM構建而成,隨著2014年底藍色巨人手中的System x伺服器業務被聯想收購,HPC1和HPC2系統合同也隨之易手。其中HPC1是一台純CPU計算設備,但從HPC2開始埃尼集團就走上了CPU加GPU的混合道路。機器中的大部分算力來自GPU,但在必要時,系統也擁有充足的算力,能夠在合理的規模下運行純CPU代碼。

2020年,戴爾拿到了為埃尼集團構建52千萬億次HPC5系統的合同。而在新冠病毒肆虐的2021年,埃尼又與HPE接洽,要求對HPC4系統進行升級。雙方還出人意外地在2021年打造出一套全新HPC4 系統——採用的則是主要為公共事業企業設計的GreenLake計算與存儲設施計費標準。關注者本以為埃尼集團會選擇開發HPC6,而非對上代系統進行升級。但當時的埃尼明顯頭腦清醒,打算等待GPU市場競爭進一步升溫,再由英偉達、AMD乃至英特爾參與HPC6系統的競標。換句話說,HPC4 更像是一種權宜之計,旨在享受GPU廠商上代技術帶來的價格優惠。

埃尼集團在利用GPU加速進行油藏建模與地震分析工作負載領域,身處石油與天然氣行業的領先地位。2021年11月,埃尼與Stone Ridge Technology建立了戰略合作夥伴關係,將後者提供的ECHELON動態油藏仿真工具引入自己的全面油藏仿真環境當中。作為石油與天然氣行業的核心充分考慮需求,這類負載全部依賴GPU加速技術的支撐。也正因為如此,埃尼集團過去幾年間對於GPU資源的需求也在不斷增長,包括計劃於今年年內部署到位的HPC6系統。預計HPC6有望亮相ISC24超級計算大會和6月同期發布的Top500超算榜單。

 

能源巨頭埃尼集團成功將HPC性能提升一個數量級

 

埃尼集團位於米蘭的綠色數據中心採用AMD「Milan」或「Genoa」Epyc CPU,全新HPC6系統則匹配MI250X GPU。

考慮到HPC6的性能只相當於兩年多前由美國橡樹嶺國家實驗室部署的1.68百億億次「Frontier」超級電腦的37%,所以整個安裝部署過程應該會比較順利。

具體來講,HPC6系統基於HPE Cray EX4000液冷機櫃,與Frontier系統中使用的Cray EX235a定製機櫃略有區別,但乍看上去仍頗有相似之處。HPC6系統中共設有28個這樣的機櫃,分別可容納128個節點。但最後一個機櫃中只安放16個節點,因此HPC6系統共包含3472個節點。每個節點只配備一塊64核AMD處理器,我們推測這就是AMD專門為Frontier打造的定製化「Trento」晶片,其運行主頻僅為2 GHz,且運行功耗也遠低於標準64核「Milan」或「Genoa」處理器。但據我們了解,埃尼集團正計劃部署標準Genoa處理器,希望通過其上提供的Infinity Fabric 4.0埠與系統中的AMD GPU保持一致通信。但這一情況尚未得到埃尼方面的證實。

HPC6系統中的GPU計算引擎並非新近發布的「Antares」MI300X加速器,而是延續了Frontier中採用的上一代「Aldebaran」MIX250X GPU。考慮到MI300X晶片擁有顯著的性能(包括性價比)提升,暫時不清楚埃尼集團為何繼續選擇上代產品。這可能是因為AMD今年之內的全部MI300X產能均已分配給各分銷商(主要面向超大規模基礎設施運營商和雲服務商,且相關合同可能去年年中就已經確定),此外蘿倫斯利弗莫爾國家實驗室也幾乎占滿了AMD今年之內的全部MI300A CPU-GPU混合晶片產能。如果AMD仍擁有大量MI250X處理器庫存,且其單次浮點運算成本與MI300X相同,那麼只要運行和散熱空間不是太過緊張,應該可以滿足埃尼集團的負載處理需求。

用美國前國防部長Donald Rumsfeld的話來說,GPU就是我們投身AI戰場的武器。

總而言之,HPC6系統已經確定採用上代GPU技術,跟之前的HPC4 系統保持一致。這應該是埃尼集團有意為之,目的是在預算、能效和供貨時間等指標中取得平衡。畢竟作為一套大型系統,埃尼集團必須考慮到還有很多公司願意花高價一口氣採購2萬到5萬張GPU,藉此構建AI引擎。與這類受眾相比,HPC客戶明顯預算不足,而且矢量性能更多關注FP64和FP32算力,跟強調FP8的AI負載有所區別。如果未來FP4運算成為AI主流,那麼雲服務商與超大規模基礎設施運營商的需求將進一步與HPC客戶分割開來。

在HPC6系統的3472個節點中,共容納著13888個GPU,意味著其節點採用與Frontier系統相同的CPU對GPU 1:4比例。但如大家所見,如果著眼於單一Epyc插槽內的8個CPU小晶片和與之一一對應的4個雙小晶片GPU,那麼CPU與GPU的實際比率仍是1:1(Cray就特別在其超級電腦設計中採用1:1的CPU和GPU比例)。

為了將各節點連接起來,HPC6系統將採用Cray的現有Slingshot 11互連。這套互連體系由「Rosetta」交換機構成,這款交換機擁有64個傳輸速率為200 Gb/秒的擴展以太網埠,網卡上匹配的則是Cray「Cassini」ASIC。雖然思科、博通和Marvell推出的以太網ASIC均擁有4倍傳輸帶寬(也就是同等或更高基數下的埠能夠將傳輸速度提升2到4倍),但卻不具備Cray這種以HPC為中心的Slingshot互連融合功能(這種功能在許多場景下也可用於加速AI工作負載)。我們還不清楚HPC6系統中所使用Slingshot網路的具體設計,唯一確定的就是其擁有像Frontier內部的蜻蜓拓撲結構。

埃尼集團宣布,HPC6將擁有超600千萬億次的峰值性能,並可在高性能LINPACK超級計算基準測試中提供至少400千萬億次的持續性能。而如果要把HPC6系統中CPU和GPU的峰值性能分別計算,我們猜測GPU的峰值性能約為664.5千萬億次,CPU的峰值性能則為14.2千萬億,合計總峰值性能為678.7千萬億次。其中GPU(及其HBM內存)占機器總峰值FP64浮點算力的97.5%,成本則占系統總成本的80%左右。

下圖所示,為埃尼集團HPC1到HPC6系統隨時間推移的CPU與GPU峰值變化(單位為千萬億次):

 

能源巨頭埃尼集團成功將HPC性能提升一個數量級

 

圖中CPU的部分確實難以分辨,而GPU算力的迅猛增長則肉眼可見。下圖所示,為對數坐標下HPC1到HPC6系統隨時間推移的CPU與GPU峰值變化(單位為千萬億次):

 

能源巨頭埃尼集團成功將HPC性能提升一個數量級

 

埃尼集團在聲明中表示,HPC6系統採用的液冷技術能夠處理掉系統全部發熱量的96%,而攜帶熱量的冷卻液可進一步用於加熱水溫、為埃尼集團的辦公室供暖。該公司還補充稱,HPC6系統的峰值功率負載為10.17兆伏安。請注意,兆伏安(MVA)與兆瓦不同,是用于衡量設備理論峰值負載處理能力的指標。截至發稿時,我們仍不清楚埃尼集團給出數值的單位到底是10.17兆瓦,還是10.17兆伏安。無論如何,同等功率下兆伏安的數字要大於兆瓦,所以如果10.17的單位確實是兆伏安,那麼兆瓦數字應該更小。相比之下,Frontier系統的額定功率為22.8兆瓦,所以根據網路與存儲規模簡單計算,HPC6的功率應該在8.3兆瓦左右。所以埃尼集團給出的兆伏安單位似乎沒錯。但在討論超級計算系統時,人們大多是以兆瓦為實際功耗單位,所以這裡大家可以姑且採信8.3兆瓦這個推測。

另外,很難說HPC6系統的構建成本是多少。但我們強烈懷疑埃尼集團的採購價格要高於橡樹嶺國家實驗室。該國家實驗室為了構建Frontier系統而砸下6億美元,其中包括5億美元的系統採購成本和1億美元的非經常性工程(NRE)成本。Cray公司早在2019年就已經對外證實,Frontier系統這5億美元採購成本中,有5000萬美元專門購買存儲設備,具體包括11.5 PB閃存層、679 PB磁盤層和專門用於存放元數據的10 PB閃存層。

假設每單位FP64計算成本相同,而且採用的Cray ClusterStor E1000「Orion」並行文件系統磁盤與附加的閃存容量(採用ZFS加Lustre混合文件系統)比例也相同,那麼埃尼集團構建HPC6系統的成本應該在1.85億美元左右。其中存儲成本為1850萬美元。粗略計算下來,這對應著250 TB磁盤加4.3 TB冷艷,再加上專門用於存放元數據的3.7 TB閃存。

而作為常規的商業客戶,與橡樹嶺國家實驗室的Frontier政府合同相比,埃尼這家能源巨頭可能還需要額外支付溢價。從歷史經驗來看,溢價係數一般在1.5倍至2倍之間。再考慮到當前GPU市場需求旺盛、但供給側嚴重不足的現實,我們認為埃尼集團很可能需要為HPC6系統支付2.5億至3億美元的構建投入。當然,另外一種可能就是埃尼集團在HPC6項目上享受到了與GreenLake相同的定價優惠,所以把總成本控制在了1.75億美元。具體情況目前無法斷言,後續我們會找機會跟HPE親自求證。

埃尼集團還向我們證實,HPC6系統將在今年年內部署安裝,而HPC4 和HPC5系統計劃在2025年年內正式退役。但在此之前,埃尼綠色數據中心將至少擁有幾個月的空前繁盛期——其總FP64性能將較兩年之前提高10.8倍。而如果把衡量標準從FP64矢量計算換成FP64矩陣數學,那麼GPU還能把成績再提高1倍。

 
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新