英偉達「GRACE」ARM CPU在HPC領域力壓X86

從種種方面來看，英偉達打造的「Grace」CG100伺服器處理器都堪稱其首款真正的伺服器級CPU，也成為擴展「Hopper」GH100 GPU加速器（專為HPC仿真與建模工作負載而設計）記憶體空間的重要方案。目前，多家主要超級計算實驗室都在對Grace CPU進行HPC測試，下面我們一起來看這些有趣的早期結果。

贊助商廣告

Grace CPU擁有相對較高的核心數量和相對較低的發熱量，同時配備低功耗DDR5（LPDDR5）記憶體組（常見於筆記本電腦，但配合糾錯機制來達到伺服器應用級別）。目前常見的單節點記憶體容量通常在256 GB到512 GB之間，基本可以滿足HPC工作負載的需求。

將兩個Grace CPU組合成一個Grace-Grace超級晶片，即可獲得一種使用NVLink晶片間互連的緊密耦合封裝，能夠在LPDDR5記憶體組之間保證記憶體一致性，且運行功耗僅為500瓦左右。這樣的方案對HPC受眾來說頗具吸引力，因為其能提供144個基於Armv9架構的Arm Neoverse「Demeter」V2核心，外加1 TB物理記憶體與1.1 TB/秒的峰值理論頻寬。但出於某種原因，可能是LPDDR5記憶體為了保證更好的良品率，這樣的組合只能實際提供960 GB記憶體容量和1 TB/秒的記憶體頻寬。而如果願意，英偉達完全可以創建一個四路Grace計算模組，整體包含288個核心和1.9 TB記憶體，同時提供2 TB/秒的聚合記憶體頻寬。這樣的四路處理器也許能賣出與上代或者上上代GPU相媲美的價格……

作為參考，我們在2022年3月剛發布時就對Grace晶片做過初步分析，並在2022年8月深入研究了Grace晶片架構（當時還沒人確定英偉達到底使用怎樣的Arm核心）。到2023年9月Arm發布架構詳細資訊之後，我們又對採用新架構的Demeter V2核心做過認真剖析。這裡不再贅述，概括來講，英偉達為Grace採用了Arm V2核心（而非自研核心），其中包含四個128位SVE2向量引擎，基本相當於英特爾至強SP架構中使用的雙AVX-512向量引擎，因此可以用於運行經典的HPC工作負載、一部分AI推理工作負載（規模不能太大）、甚至可用於對中等規模的AI模型進行重新訓練。

贊助商廣告

巴塞羅那超級計算中心同紐約州立大學石溪分校/布法羅分校最近公布的數據，也再次證實了這一判斷。兩個研究小組都發布了在各類HPC與AI基準測試中使用Grace-Hopper與Grace-Grace超級晶片的性能結果，也基本符合我們之前做出的猜測：從發熱量和使用成本角度看，Grace CPU確實能夠在HPC領域表現出一定的競爭力。

兩個研究小組也都在上周於日本名古屋召開的HPC Asia 2024大會上發表了相關論文。巴塞羅那超級計算中心方面的文章題為《英偉達Grace超級晶片在HPC應用中的早期評估》（https://dl.acm.org/doi/abs/10.1145/3636480.3637284），石溪與布法羅分校研究小組的文章則題為《英偉達Grace CPU超級晶片與英偉達Grace Hopper超級晶片的科學工作負載初探》（https://dl.acm.org/doi/abs/10.1145/3636480.3637097）。兩篇論文都介紹了如何在Grace-Grace與Grace-Hopper超級晶片上實際執行關鍵HPC應用程式。相對來說，紐約州立大學研究人員的論文更有指導意義，這主要得益於小組匯總了來自多家HPC中心和一家雲服務商的性能數據，具體涵蓋石溪分校、亞馬遜雲科技、匹茲堡超級計算中心、德克薩斯高級計算中心和普渡大學的性能數據。

巴塞羅那超級計算中心則將英偉達Grace-Grace與Grace-Hopper超級晶片（屬於其MareNostrum 5系統實驗集群的一部分）與上代MareNostrum 4超級電腦中的x86 CPU節點進行了性能比較，後者採用兩塊24核「Skylake」至強SP-8160 Platinum處理器，運行主頻為2.1 GHz。以下是MareNostrum 4節點與Grace-Hopper與Grace-Grace節點的簡單結構比較：

在Grace-Hopper節點上，巴塞羅那超級計算中心僅在超級晶片的CPU部分上測試了各類HPC應用程式。石溪分校團隊則對比較了早期英偉達系統中的CPU-CPU與CPU-GPU組合。

以面來看巴塞羅那超級計算中心給出的匯總表格，其中比較了三套測試系統的各自架構：

巴塞羅那超級計算中心稱，Grace處理器早期版本中的CPU主頻已下降至3.2 GHz，且記憶體頻寬也低於英偉達當初公布的完整生產單元。雖然具體數字尚難以最終確定，但Grace CPU受測設備的實際運行主頻約為3.2 GHz。

贊助商廣告

在應用程式運行性能上，巴塞羅那超級計算中心在三類節點上分別運行了自主開發的Alya計算力學與OpenFOAM計算流體力學代碼、NEMO海洋氣候模型、LAMMPS分子動力學模型以及PhysiCell多細胞模擬框架。以下是Grace-Grace節點與上代MareNostrum 4節點之間的性能比對。這裡我們跳過了Grace-Hopper節點，因為其中並沒有用到GPU，所以性能只相當於Grace-Grace節點的一半左右。下面來看相同數量CPU核心條件下的加速結果：

在Alya應用程式中，Grace-Grace的速度達到1.67倍至18.1倍。

在OpenFOAM上，Grace-Grace的加速效果約為4.49倍。

在NEMO上，加速比為2.78倍。

在LAMMPS上，當使用相同數量核心時（1到288個），加速比為2.1倍至2.9倍。

在PhysiCell上，同樣使用48核心節點時的加速比為3.24倍。

很明顯，Grace-Grace單元擁有3倍核心數量，因此節點層面的比較也應照此比例。

前文已經提到，石溪分校的論文還包含一系列基準測試，並整理了其他機構的性能結果。下表所示為運行HPC Challenge（HPCC）基準測試時各節點的相對性能，其中分別提取Matrix、LINPACK與FFT元素進行比較：

我們已經很長時間沒看到這種帶有誤差範圍的基準數據了，由於監控難度較大，多數測試並不提供誤差參考。總而言之，以單一插槽為基礎，Grace-Grace超級晶片的性能介於英特爾「Ice Lake」與「Skylake」至強SP之間，但高於「Milan」與「Rome」AMD EPyc處理器。

而在更嚴格的高性能共軛梯度（HPCG，主要強調計算與記憶體頻寬之間的平衡，很多超級電腦在此測試中得分不高）測試中，Grace-Grace超級晶片帶來了如下性能表現：

再來看Grace-Grace在OpenFOAM上的性能表現，測試使用MotoBikeQ在全部硬體上模擬1100萬個細胞：

贊助商廣告

我們本以為Grace-Grace單元能在這項測試中表現更好，但很遺憾……

最後來看Gromacs分子動力學基準測試在各節點上的運行得分，包括CPU-GPU和純CPU變體：

看來最終的優勝者已經出現了！Grace-Hopper組合明顯表現更佳，但其他CPU配合Hopper GPU也能達到類似的效果。而在僅採用CPU的Grace-Grace單元上，Gromacs的性能則與雙「Sapphire Rapids」至強Max系列CPU基本相當。值得注意的是，該晶片上的HBM記憶體似乎並沒有給Gromacs負載帶來什麼性能提升。

總而言之，這就是我們目前掌握的Grace CPU在HPC工作負載上的實際表現與相關結論。石溪分校的論文中還列舉了其他基準測試，歡迎感興趣的朋友自行查看。