NVIDIA公布最新MLPerf成績，成績依然穩坐第一

目前NVIDIA已可組成共有10,752組H100 GPU的超大型運算集群。NVIDIA Eos人工智慧超級電腦由10,752組H100 GPU，AI算力高達42.6EFLOPS。NVIDIA再次成為唯一完成所有MLPerf測試的公司，也創下6項新紀錄。在多項AI訓練測試中，H100都展現壓倒性領先。（圖中的-符號代表未提交成績）受益於新款GPU帶來的Scale-Up與更多GPU組成集群帶來的Scale-Out效益，讓GPT-3 175B模型的訓練時間度量從年縮短到月，再縮短到日。運算集群的H100 GPU數量由3,584組擴展至3倍的10,752組，而性能提升約2.8倍，換算之下Scale-Out的效率高達93%。由10,752組H100 GPU組成的Microsoft Azure雲計算伺服器性能表現與Eos人工智慧超級電腦性能相差不到2%，展現在數據中心和公有雲部署的高效率。在同樣使用64組GPU/加速器的條件下，H100的Stable Diffusion訓練測試速度大約為Intel Gaudi 2的2倍。NVIDIA的MLPerf HPC（高性能計算）測試成績較最初有10-16倍不等的表現（筆者註：使用的軟硬體並不相同），而在新加入的OpenFold胺基酸串行預測蛋白質3D結構模型測試中也有長足進步。

贊助商廣告

MLPerf AI性能的測試基準在3.1更新版中加入Stable Diffusion訓練測試，而NVIDIA也在最新公布的結果取得好成績。

MLPerf是產業用于衡量AI性能的測試基準，包括Amazon、Arm、Baidu、Google、Intel、Meta、Microsoft，以及哈佛大學、斯坦福大學、多倫多大學在內的眾多企業與學術單位皆支持這項標準。

這次發布的最大亮點在於使用由10,752組H100 GPU搭配Quantum-2 InfiniBand網路互聯技術的NVIDIA Eos人工智慧超級電腦，它在短短3.9分鐘完成擁有1,750組個參數的GPT-3模型訓練，與NVIDIA在不到6個月前始推出時僅使用3,584組H100 GPU的10.9分鐘記錄相比提升約2.8倍。至於其他成績資訊與圖表則整理於下。