目前NVIDIA已可組成共有10,752組H100 GPU的超大型運算集群。NVIDIA Eos人工智慧超級電腦由10,752組H100 GPU,AI算力高達42.6EFLOPS。NVIDIA再次成為唯一完成所有MLPerf測試的公司,也創下6項新紀錄。在多項AI訓練測試中,H100都展現壓倒性領先。(圖中的-符號代表未提交成績)受益於新款GPU帶來的Scale-Up與更多GPU組成集群帶來的Scale-Out效益,讓GPT-3 175B模型的訓練時間度量從年縮短到月,再縮短到日。運算集群的H100 GPU數量由3,584組擴展至3倍的10,752組,而性能提升約2.8倍,換算之下Scale-Out的效率高達93%。由10,752組H100 GPU組成的Microsoft Azure雲計算伺服器性能表現與Eos人工智慧超級電腦性能相差不到2%,展現在數據中心和公有雲部署的高效率。在同樣使用64組GPU/加速器的條件下,H100的Stable Diffusion訓練測試速度大約為Intel Gaudi 2的2倍。NVIDIA的MLPerf HPC(高性能計算)測試成績較最初有10-16倍不等的表現(筆者註:使用的軟硬體並不相同),而在新加入的OpenFold胺基酸串行預測蛋白質3D結構模型測試中也有長足進步。
MLPerf AI性能的測試基準在3.1更新版中加入Stable Diffusion訓練測試,而NVIDIA也在最新公布的結果取得好成績。
MLPerf是產業用于衡量AI性能的測試基準,包括Amazon、Arm、Baidu、Google、Intel、Meta、Microsoft,以及哈佛大學、斯坦福大學、多倫多大學在內的眾多企業與學術單位皆支持這項標準。
這次發布的最大亮點在於使用由10,752組H100 GPU搭配Quantum-2 InfiniBand網路互聯技術的NVIDIA Eos人工智慧超級電腦,它在短短3.9分鐘完成擁有1,750組個參數的GPT-3模型訓練,與NVIDIA在不到6個月前始推出時僅使用3,584組H100 GPU的10.9分鐘記錄相比提升約2.8倍。至於其他成績資訊與圖表則整理於下。
MLPerf在3.1更新版中加入Stable Diffusion文本對圖像生成模型的訓練測試。
由於多數藥物皆作用於蛋白質,因此OpenFold是協助科學家了解蛋白質的結構,並快速研發有效藥物的關鍵。在最新測試中,H100 GPU在7.5分鐘內完成OpenFold模型訓練相較於2年前AlphaFold訓練使用128個加速器並耗時11天,能夠明顯提升工作效率。