「Venado」超級電腦日前正式迎來啟動剪彩儀式,其技術根基源自2021年4月英偉達宣布的第一項數據中心級ARM伺服器CPU計劃。而Venado本體的構建計劃則由洛斯·阿拉莫斯國家實驗室的研究員們於2022年5月公布,只是當時的相關細節還無法滿足我們對於速度和饋送性能的大膽想像。
如今,我們終於迎來了關於Venado系統的更多具體指標,也對洛斯·阿拉莫斯實驗室的運作方式有了更多了解。一言以蔽之,Venado讓我們了解到這處實驗室為什麼比世界上其他高性能計算(HPC)中心更重視在內存帶寬與算力之間求取平衡。
洛斯·阿拉莫斯國家實驗室成立於1943年,這裡是曼哈頓計劃的故鄉,全球首例核武器就誕生在這裡。當然,彼時根本就不存在超級電腦,但洛斯·阿拉莫斯的研究人員一直在執行大量複雜計算。有些依靠手動方式完成,有些則通過IBM制表符以打孔卡這種早期模擬形式進行數據存儲與操作。在洛斯·阿拉莫斯執行此類計算的第一台數字電腦被稱為Maniac,於1952年安裝到位。它每秒能夠執行10000次運算,負責運行蒙特卡洛模擬,藉此以隨機方式模擬真實場景下的確定性過程。在接下來的四十年間,洛斯·阿拉莫斯實驗室先後使用IBM、Control Data Corporation、Cray、Thinking Machines以及Silicon Graphics等一系列超級電腦,並於2008年安裝了由AMD皓龍處理器與Cell加速器組成的IBM萬億次級「Roadrunner」系統,代表著CPU與加速器在歷史上的首次集成協作。
最近十年,洛斯·阿拉莫斯實驗室於2015年安裝了價值1.47億美元的「Trinity」系統,其由英特爾至強與至強Phi CPU組成,配備有2 PB內存與英特爾100 Gb/秒Omni-Path互連機制。Trinity系統之所以值得關注,是因為其會將計算結果從內存中轉移至突發緩衝區當中,以便設備能夠繼續執行計算。2023年8月安裝的「Crossroads」超級電腦成為Trinity系統的繼任者,這套超算設備採用英特爾「Sapphire Rapids」至強SP處理器,配備 HBM2e堆疊內存與HPE的Slingshot互連技術。
洛斯·阿拉莫斯實驗室及其近鄰桑迪亞國家實驗室一直希望做出新的探索,利用ARM伺服器構建超級電腦集群。洛斯·阿拉莫斯實驗室曾長期研究如何借ThunderX4 Arm伺服器(後來又轉向Marvell)提升每核心對應的內存帶寬。但由於實際表現不佳,無論是「Triton」ThunderX3兩袖清風是ThunderX4都沒能真正落地部署,因此洛斯·阿拉莫斯實驗室說服英特爾為Sapphire Rapids開發了HBM版變體,並要求英偉達設計出能夠與當前「Hopper」GH100及GH200 GPU加速器、乃至後續「Balckwell」GB100及GB200加速器相適配的「Grace」CG100 ARM伺服器晶片。
最優內存解的探索之路
這套最新超算系統的名稱Venado在西班牙語中為「鹿」或「牡鹿」之意,同時也指位於新墨西哥州的桑格雷-德克里斯托山脈。HPE成為系統的主要承包商,因此可以想見,這套系統並未採用英偉達用於建立共享內存GPU superpods的NVLink Switch共享內存互連技術。
兩年之前,洛斯·阿拉莫斯實驗室曾在Venado系統架構公告中提到,他們可能更傾向於在由Grace-Grace及Grace-Hopper計算引擎構建的Cray「Shasta」XE超級電腦系統內採用InfiniBand,而非HPE的Slingshot以太網變體。但從現在的實際情況來看,洛斯·阿拉莫斯實驗室還是部署了200 Gb/秒Slingshot 11互連這既。根據我們的猜測,這是因為HPE Slingshot 11的200 Gb/秒埠要比英偉達的400 Gb/秒Quantum 2 InfiniBand埠便宜得多。
事實上,這套全新Venado系統並非洛斯·阿拉莫斯實驗室計算設施中的骨幹力量,而僅是其結合可用預算打造的固件研究型實驗設備。洛斯·阿拉莫斯實驗室部署的大多數設備都要經歷提案、構建、核准後方可實際投入運行,以供負責管理美國軍方核武器儲備的國家核武器管理局使用。
下面來看2021年5月時,洛斯·阿拉莫斯實驗室就Venado系統發布的正式公告:
我們還採訪到洛斯·阿拉莫斯實驗室高性能計算項目主管Jim Lujan及模擬與計算副總監Irene Colyters,其基本思路就是將計算負載以八比二的方式分配給這兩種架構。其中80%的工作負載將由GPU運行(假設為FP64精度),而20%則交由CPU負責。
考慮到在常規GPU加速系統當中,約有95%到98%的算力來自GPU,因此Venado系統中CPU的算力貢獻比例明顯要更高一些。根據洛斯·阿拉莫斯實驗室高性能計算部門負責人Gary Grider(擔任該部門負責人已有兩年半時間,同時也是突發緩衝區的設計者)的介紹,這樣的計算負載劃分方式有著充分的理由。
Grider解釋道,「我們的應用程序屬於複雜度極高的多物理場、多鏈路規模、極端高解析度且極為繁複的程序包,其中包含高達數百萬行代碼。這些代碼往往需要占據整個超算系統容量的一半,且要持續運行六個月才能得到答案。這類場景對我們來說很正常,但對多數其他能源部實驗室而言卻較為罕見。他們雖然也偶有類似體量的計算任務,但在頻率上遠遠低於洛斯·阿拉莫斯。這些應用程序之所以需要持續運行六個月時間,是因為任務本身往往會以非常稀疏且不規則的方式訪問內存,想要達成的目標也極為複雜——應用程序所運行的是一項體量相當於系統實際容量50倍的任務。因此,我們只能根據自身實際需求為模擬環境嘗試各種設備組合與解決方案。最終,我們意識到完全依賴GPU並不可行,因為GPU只在密集線性代數運算中擁有強大的性能表現。而如果需要處理的任務稀疏且不規則,而且以索引、查找之類的操作為主,那麼其表現並不會比CPU更好。通過多年的經驗積累,我們意識到洛斯·阿拉莫斯實驗室最需要關注的是每一塊錢預算對應多少內存帶寬,而非對應多少算力。」
好在市場給出了積極的回應:在GPU上運行深度學習推薦系統(DLRM)的超大規模基礎設施運營商和雲服務商們,同樣需要一種方法來為推薦器提供遠超GPU HBM內存容量的嵌入緩存,英偉達在這方面給出的答案就是Grace——其搭載一款出色的計算內存控制器,可額外支持480 GB LPDDR5內存容量。
與之對應的是,英偉達用兩個72核Grace晶片通過NVLink埠連接成一塊超級晶片,其中不單提供大量Arm「Demeter」V2核心,還配備960 GB內存容量與1 TB/秒內存帶寬。由於每個V2核心擁有四個128位SVE 2向量引擎,Grace-Grace超級晶片能夠自行提供7.1千萬億次的聚合峰值FP64算力。而對於更為常規的情況,即大部分計算任務由GPU負責執行,可以想見英偉達也在相應採用向量算力較弱的Arm「Perseus」N2核心。但根據我們的猜測,美國洛斯·阿拉莫斯和瑞士國家超級計算中心(CSCS)的「Alps」系統應該是選擇了配備V2核心的英偉達系統。而且得益於Grace CPU中相對較少的核心數量、相對便宜且功耗更低的LPDDR5內存以及相對更大的480 GB可用內存,Grace在每核心內存帶寬與單位內存帶寬成本之間取得了很好的平衡。
其中Grace CPU擁有16個LPDDR5內存控制器,每個控制器的理論內存帶寬總計為546 GB/秒,理論容量上限為512 GB。但Grace的實際交付版本只提供480 GB內存與500 GB/秒帶寬。Grace-Grace超級晶片中的兩塊CPU通過900 GB/秒NVLink晶片到晶片實現(半導體行業稱之為C2C)相互對接。這項NVLink C2C互連技術同樣被用於將Grace CPU接入具有80 GB/96 GB HBM3或141 GB HBM3e內存容量的Hoppper GPU,具體視晶片型號而定。
總而言之,根據我們在2022年5月收集到的Grace及Hopper技術公告,以及洛斯·阿拉莫斯實驗室官方確認的二八開負載分配原則,經過粗略計算可以大致認為:Venado超級電腦系統中可能包含3125個Garce-Hopper節點和大約1500個Grace-Grace節點。但考慮到Grace CPU的FP64性能其實超過很多朋友的想像——我們認為這肯定是有意為之,主要是為了照顧高性能計算客戶(而非AI客戶)的需求——實際Venado系統分別擁有2560個Grace-Hopper節點與920個Grace-Grace節點。
通過簡單計算大家就會發現,Venado系統中共包含31.68萬個Grace核心,峰值FP64性能可達15.62千萬億次。Venado節點中的Grace CPU共擁有2 PB主內存(內存容量與Trinity系統相同,我們認為這絕不只是巧合),LPDDR5內存的總帶寬則為2.1 PB/秒。
系統當中共有2560個Hooper GPU,向量核心上的FP64性能合計為85.76千萬億次,張量核心上的FP64性能則為171.52千萬億次。如果使用H100上的張量核心,則Hopper上的FP64性能占比為92%,Grace CPU上的FP64性能占比為8%。但如果僅使用向量核心,則Ho之遙
上的FP64性能占比為85%。我們假設這些Hopper GPU各擁有96 GB的HBM3內存,則合計HBM3內存容量為240 TB、聚合帶寬則為9.75 PB/秒。通過進一步計算,還會發現Venado系統中81%的內存帶寬來自Hopper GPU,而餘下19%由Grace CPU提供——幾乎完美符合二八開原則。
作為與HPE合約中的一部分,Venado系統將採用配備Slingshot網路的Lustre並行存儲集群。Grider還提到,洛斯·阿拉莫斯實驗室還希望在Venado系統上嘗試DeltaFS等更多其他文件系統。
Grider表示Venado系統現已安裝並投入運行,但由於「偶爾會發生一些問題」,計劃將在未來兩個月內逐漸實現平穩交付。到今年7月左右,相信將有大量應用程序開始在這套實驗性系統上運轉起來。