宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

STAMPEDE3:擁有更強處理能力的小型HPC系統

2023年07月25日 首頁 » 熱門科技

STAMPEDE3:擁有更強處理能力的小型HPC系統

全球所有主要高性能計算中心,無論是直接由科研經費資助、還是靠軍方補貼,都憑藉明確的需求和充裕的資金在兩類超級電腦系統中選擇其一。要麼擁有極高性能擴展上限,要麼能夠承載起成百上千隻需運行小規模作業的用戶。

德克薩斯大學奧斯汀分校的得州高級計算中心,負責運營美國國家科學基金會的旗艦系統。該中心目前正升級其高容量系統,並開始展望下一代代號「Horizon」的超算新方案。

2018年夏天,美國國家科學基金會(NSF)向戴爾授予一份價值6000萬美元的合同,由戴爾與英特爾合作建立這套6000萬美元的「Rontera」全CPU系統。該系統共擁有8008個節點,採用英特爾「Cascade Lake」至強SP CPU加英偉達的100 GB/秒HDR InfiniBand互連,可在FP64雙精度下提供31.8千萬萬次峰值性能。這是迄今為止全球最大的學術超級電腦,而其繼任者Horizon應該也將延續這樣的設計思路。

UT研究副總裁兼TACC執行董事Dan Stanzione不想過多談論之前的Frontera和如今的Horizon,而是更關注Stampede2的後繼者。Stampede2是其系統中的高容量機器,全球數千名研究人員一直在用它運行自己的HPC代碼。而繼任系統Stampede3將是一台由多代不同英特爾CPU組成的機器。從這個角度看,這將是一台混合型超算,與之前的Stampede和Stampede2一樣。不過Stampede3還將配備「Ponte Vecchio」Max系列GPU加速器節點,這對Stampede系列機器來說尚屬首次。

Stampede2隨著時間推移也進行了擴展和升級,有著多種不同類型的計算資源,包括基於英特爾「Knights Landing」至強Phi多核處理器、「Skylake」至強SP與「Ice Lake」至強SP處理器的節點。Stampede2合同的初始階段耗資3000萬美元,之後隨著容量提升和運行周期的推進,又額外增加了2400萬美元的運營與維護成本。至強Phi處理器代表Stampede2的第一階段,於2017年底正式組裝,擁有4200個單槽節點和來自英特爾的100 Gb/秒Omni-Path互連,並藉助MPI實現工作共享。幾個月後的2017年初,1736個雙路Skylake節點投入使用,Omni-Path網路也進行了擴展以支持這批新節點。Stampede2原本預計於2022年9月停止使用,但去年2月時,NSF決定延長Stampede2的使用壽命。為此,他們專門更換了448個至強Phi節點,並使用Ice Lake處理器替換了224個原有節點。與舊至強Phi節點相比,這款處理器將性能提高了2倍以上,內存容量則提升至3倍。在最終實例中,Stampede2憑藉367024個核心在FP64精度上實現了18.3千萬億次性能。

在上一輪對Stampede2的升級過程中,該機器的容量依照極限科學與工程發現環境(XSEDE)計劃進行分配。這項計劃已經於2022年8月結束,現已被NSF的高級網路基礎設施協議生態:服務與支持(ACCESS)計劃所取代。自2016年底到2022年初,Stampede2已經運行超900萬次模擬與數據分析作業,機器的正常運行時間為98%,核心利用率超過96%。截至本周,Stampede2已經為3000多個資助項目的超1.1萬用戶運行了1080萬項作業。根據Stanzione的介紹,相比之下,Frontera系統運行過的作業數量為110多萬個,任意時段均有約60個項目在其中運行,總項目處理量約為150個。

Stampede3的合同金額僅為1000萬美元,看起來雖然周期被拉得越來越長,但摩爾定律的力量仍然能發揮作用。而且幸運的是,出於預算和技術這兩方面原因,超級電腦如今的運行周期也有所增加,因此服役時間和升級節奏仍然保持匹配。

正如Stempede2曾有多輪子升級周期,一邊替換陳舊節點一邊保留相對較新的節點,Stampede3也將採取現有節點加新節點的組合來構建高容量系統。而且Stampede3偶爾也會像Frontera那樣執行大規模整體作業。Stanzione介紹稱,就在Stampede2中比較陳舊的Knights Landing節點被關閉之前,它們還在運行一個跨越2000節點的巨型作業。無論用哪種標準衡量,這都是一項相當艱巨的任務。

7月15日,全部Knights Landing均已被關閉,並安裝了560個帶有HBM內存的「Sapphire Rapids」處理器(英特爾稱其為Max系列CPU)的新節點。這個新分區的雙槽節點採用56核Max CPU,運行頻率為1.9 GHz,且每112個核心配備128 GB超高速(1.2 TB/秒)HBM2e內存。這一容量比每核心1 GB的原有配置稍好一點,雖然提升並不算大,但相當於常規DDR5主內存4倍的極高傳輸速度確實彌補了不足。據Stanzione介紹,Max CPU節點沒有附加任何DDR5主內存來顯著擴展容量並小幅增加帶寬,因為這樣會讓每個節點的成本再額外增加約4000美元。

Stampede3保留了1064個Skylake至強SP節點,其中有兩個運行頻率為2.5 GHz、各擁有24個核心的CPU,這48個核心對應192 GB主內存,符合HPC領域每核心對應4 GB內存的比例。但其內存帶寬僅有HBM2e內存選項的四分之一。Stampede3還將保留2021年添加的224個Ice Lake節點,這些節點採用兩個運行頻率為2.3 GHz的40核CPU,每節點配備256 GB內存,分配到每個核心有3 GB內存。我們也將進一步關注Stampede3機器上不同分區的內存容量、內存帶寬和浮點性能間的組合差異。

Stanzione在採訪中解釋道,「我們將採用DDR5內存的Sapphire Rapids與採用HBM2e的Sapphire Rapids進行了直接比較。根據運行代碼的不同,我們發現單憑內存技術的升級,其性能就實現了1.2倍至2倍的提升空間。與普通Sapphire Rapids相比,HBM2e版本的平均性能提高了60%到70%。這意味著與Frontera上的Cascade Lake CPU或Stapmede2上的Skylake CPU相比,每插槽的性能可以提升5倍。」

從理論上講,這可能意味著TACC能夠通過該機器運行更多作業,將FP64的峰值性能拉升至接近4千萬億次。Stampede3機器中近半數聚合核心(45.5%)位於配備HBM2e內存的節點當中,其本身就具備4千萬億次的性能。而且這個性能指標可能更接近持續性能,而非峰值性能,所以實用性大大增加。

Stanzione解釋道,「如果我們將兩個Sapphire Rapids CPU並行部署,而帶有HBM的CPU能實現2倍的處理速度,那麼60核與56核晶片間的峰值浮點運算水平不會有太大變化,但穩定浮點運算性能卻會顯著提升。使用高帶寬內存時,峰值性能中可以穩定實現的部分將大大改善。因此,對於很多對傳輸帶寬比較敏感的大型MPI代碼來說,Sapphire Rapids HBM將成為最佳選擇。而如果用戶需要的是更高的內存容量,我們也將繼續保留Ice Lake和Skylake節點。儘管Skylake CPU確實有點過時了,但其時鐘頻率仍然高達2.5 GHz,時至今日也有一戰之力;加上每節點48個核心,性能表現也不算太差。」

如此算來,如果有十台各配備四個Ponte Vecchio GPU的伺服器,同時假設各伺服器擁有兩個Sapphire Rapids HBM處理器加Xe Link互連,且全部接入共享內存系統。那麼只要TACC能夠在節點中選擇最高端的52萬億次CPU型號,則該機器在這個分區上的總算力將達到約2.1千萬億次。通過簡單的數學計算,Skylake分區的峰值性能約為2.8千萬億次,Ice Lake分區的峰值性能約為1.1千萬億次,而整個Stampede系統將擁有137952個核心(每個Ponte Vecchio GPU提供128個核心)加330 TB的主內存,帶來接近10千萬億次的總FP64性能。

在網路方面,TACC將繼續使用Omni-Path。但在新系統中,新的Sapphire Rapids HBM節點和Ponte Vecchio GPU節點將使用Cornelis Networks即將推出的400 Gb/秒Omni-Path進行部署。Cornelis Networks於2021年7月從英特爾手中買下Omni-Path業務,並跳過200 Gb/秒的升級周期,直接計劃推出400 Gb/秒互連。現有Skyklake和Ice Lake節點則將繼續使用100 Gb/秒Omni-Path。

在存儲方面,TACC也邀請到全閃存、高性能存儲廠商Vast Data的參與,對於這家初創公司來說無疑代表著巨大的商業收益。

「我們的Stampede2上的很多磁盤已經老化。雖然原本的文件系統很棒,但連續六年的滿負荷運行已經令其不堪重負,臨時文件系統在運行這1080個作業時也有所損耗。因此,我們將嘗試使用Vast Data作為臨時文件系統。我們將把它接入Frontera結構,看看是否真的可以支撐起下一代系統的8000到10000家客戶。我們聯合Vast Data進行了一波小規模測試,並對結果非常非常滿意。因此接下來我們會進一步擴大規模,打破長久以來對Lustre的依賴,嘗試採用全NVMe閃存新方案。」

Vast Data文件系統的容量為13 PB,而在內置數據壓縮的情況下,其實際可用容量約為20 PB。該存儲系統將提供50 GB/秒的定稿帶寬和450 GB/秒的讀取帶寬。

新的Vast Data文件系統將於今年9月底正式安裝。Stanzione表示,戴爾的新機架則計劃於10月份交付,並在11月到12月期間組裝數百個Sapphire Rapids HBM節點。他們的目標是在2024年第一季度裝好所有節點,TACC目前希望在明年1月之內完成。經過前期測試,完整的Stampede3機器有望在明年3月投入生產。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新