宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

英偉達「GRACE」ARM CPU在HPC領域力壓X86

2024年02月09日 首頁 » 熱門科技

英偉達「GRACE」ARM CPU在HPC領域力壓X86

從種種方面來看,英偉達打造的「Grace」CG100伺服器處理器都堪稱其首款真正的伺服器級CPU,也成為擴展「Hopper」GH100 GPU加速器(專為HPC仿真與建模工作負載而設計)內存空間的重要方案。目前,多家主要超級計算實驗室都在對Grace CPU進行HPC測試,下面我們一起來看這些有趣的早期結果。

Grace CPU擁有相對較高的核心數量和相對較低的發熱量,同時配備低功耗DDR5(LPDDR5)內存組(常見於筆記本電腦,但配合糾錯機制來達到伺服器應用級別)。目前常見的單節點內存容量通常在256 GB到512 GB之間,基本可以滿足HPC工作負載的需求。

將兩個Grace CPU組合成一個Grace-Grace超級晶片,即可獲得一種使用NVLink晶片間互連的緊密耦合封裝,能夠在LPDDR5內存組之間保證內存一致性,且運行功耗僅為500瓦左右。這樣的方案對HPC受眾來說頗具吸引力,因為其能提供144個基於Armv9架構的Arm Neoverse「Demeter」V2核心,外加1 TB物理內存與1.1 TB/秒的峰值理論帶寬。但出於某種原因,可能是LPDDR5內存為了保證更好的良品率,這樣的組合只能實際提供960 GB內存容量和1 TB/秒的內存帶寬。而如果願意,英偉達完全可以創建一個四路Grace計算模塊,整體包含288個核心和1.9 TB內存,同時提供2 TB/秒的聚合內存帶寬。這樣的四路處理器也許能賣出與上代或者上上代GPU相媲美的價格……

作為參考,我們在2022年3月剛發布時就對Grace晶片做過初步分析,並在2022年8月深入研究了Grace晶片架構(當時還沒人確定英偉達到底使用怎樣的Arm核心)。到2023年9月Arm發布架構詳細資訊之後,我們又對採用新架構的Demeter V2核心做過認真剖析。這裡不再贅述,概括來講,英偉達為Grace採用了Arm V2核心(而非自研核心),其中包含四個128位SVE2矢量引擎,基本相當於英特爾至強SP架構中使用的雙AVX-512矢量引擎,因此可以用於運行經典的HPC工作負載、一部分AI推理工作負載(規模不能太大)、甚至可用於對中等規模的AI模型進行重新訓練。

巴塞羅那超級計算中心同紐約州立大學石溪分校/布法羅分校最近公布的數據,也再次證實了這一判斷。兩個研究小組都發布了在各類HPC與AI基準測試中使用Grace-Hopper與Grace-Grace超級晶片的性能結果,也基本符合我們之前做出的猜測:從發熱量和使用成本角度看,Grace CPU確實能夠在HPC領域表現出一定的競爭力。

兩個研究小組也都在上周於日本名古屋召開的HPC Asia 2024大會上發表了相關論文。巴塞羅那超級計算中心方面的文章題為《英偉達Grace超級晶片在HPC應用中的早期評估》(https://dl.acm.org/doi/abs/10.1145/3636480.3637284),石溪與布法羅分校研究小組的文章則題為《英偉達Grace CPU超級晶片與英偉達Grace Hopper超級晶片的科學工作負載初探》(https://dl.acm.org/doi/abs/10.1145/3636480.3637097)。兩篇論文都介紹了如何在Grace-Grace與Grace-Hopper超級晶片上實際執行關鍵HPC應用程序。相對來說,紐約州立大學研究人員的論文更有指導意義,這主要得益於小組匯總了來自多家HPC中心和一家雲服務商的性能數據,具體涵蓋石溪分校、亞馬遜雲科技、匹茲堡超級計算中心、德克薩斯高級計算中心和普渡大學的性能數據。

巴塞羅那超級計算中心則將英偉達Grace-Grace與Grace-Hopper超級晶片(屬於其MareNostrum 5系統實驗集群的一部分)與上代MareNostrum 4超級電腦中的x86 CPU節點進行了性能比較,後者採用兩塊24核「Skylake」至強SP-8160 Platinum處理器,運行主頻為2.1 GHz。以下是MareNostrum 4節點與Grace-Hopper與Grace-Grace節點的簡單結構比較:

英偉達「GRACE」ARM CPU在HPC領域力壓X86

在Grace-Hopper節點上,巴塞羅那超級計算中心僅在超級晶片的CPU部分上測試了各類HPC應用程序。石溪分校團隊則對比較了早期英偉達系統中的CPU-CPU與CPU-GPU組合。

以面來看巴塞羅那超級計算中心給出的匯總表格,其中比較了三套測試系統的各自架構:

英偉達「GRACE」ARM CPU在HPC領域力壓X86

巴塞羅那超級計算中心稱,Grace處理器早期版本中的CPU主頻已下降至3.2 GHz,且內存帶寬也低於英偉達當初公布的完整生產單元。雖然具體數字尚難以最終確定,但Grace CPU受測設備的實際運行主頻約為3.2 GHz。

在應用程序運行性能上,巴塞羅那超級計算中心在三類節點上分別運行了自主開發的Alya計算力學與OpenFOAM計算流體力學代碼、NEMO海洋氣候模型、LAMMPS分子動力學模型以及PhysiCell多細胞模擬框架。以下是Grace-Grace節點與上代MareNostrum 4節點之間的性能比對。這裡我們跳過了Grace-Hopper節點,因為其中並沒有用到GPU,所以性能只相當於Grace-Grace節點的一半左右。下面來看相同數量CPU核心條件下的加速結果:

在Alya應用程序中,Grace-Grace的速度達到1.67倍至18.1倍。

在OpenFOAM上,Grace-Grace的加速效果約為4.49倍。

在NEMO上,加速比為2.78倍。

在LAMMPS上,當使用相同數量核心時(1到288個),加速比為2.1倍至2.9倍。

在PhysiCell上,同樣使用48核心節點時的加速比為3.24倍。

很明顯,Grace-Grace單元擁有3倍核心數量,因此節點層面的比較也應照此比例。

前文已經提到,石溪分校的論文還包含一系列基準測試,並整理了其他機構的性能結果。下表所示為運行HPC Challenge(HPCC)基準測試時各節點的相對性能,其中分別提取Matrix、LINPACK與FFT元素進行比較:

英偉達「GRACE」ARM CPU在HPC領域力壓X86

我們已經很長時間沒看到這種帶有誤差範圍的基準數據了,由於監控難度較大,多數測試並不提供誤差參考。總而言之,以單一插槽為基礎,Grace-Grace超級晶片的性能介於英特爾「Ice Lake」與「Skylake」至強SP之間,但高於「Milan」與「Rome」AMD EPyc處理器。

而在更嚴格的高性能共軛梯度(HPCG,主要強調計算與內存帶寬之間的平衡,很多超級電腦在此測試中得分不高)測試中,Grace-Grace超級晶片帶來了如下性能表現:

英偉達「GRACE」ARM CPU在HPC領域力壓X86

再來看Grace-Grace在OpenFOAM上的性能表現,測試使用MotoBikeQ在全部硬體上模擬1100萬個細胞:

英偉達「GRACE」ARM CPU在HPC領域力壓X86

我們本以為Grace-Grace單元能在這項測試中表現更好,但很遺憾……

最後來看Gromacs分子動力學基準測試在各節點上的運行得分,包括CPU-GPU和純CPU變體:

英偉達「GRACE」ARM CPU在HPC領域力壓X86

看來最終的優勝者已經出現了!Grace-Hopper組合明顯表現更佳,但其他CPU配合Hopper GPU也能達到類似的效果。而在僅採用CPU的Grace-Grace單元上,Gromacs的性能則與雙「Sapphire Rapids」至強Max系列CPU基本相當。值得注意的是,該晶片上的HBM內存似乎並沒有給Gromacs負載帶來什麼性能提升。

總而言之,這就是我們目前掌握的Grace CPU在HPC工作負載上的實際表現與相關結論。石溪分校的論文中還列舉了其他基準測試,歡迎感興趣的朋友自行查看。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新