Nvidia公布Blackwell平台AI推論Llama 2執行性能，為前代GPU 4倍

Nvidia昨（28）日公布財報，並公布下一代GPU架構Blackwell的執行性能，宣稱執行Llama 2的性能是前代產品的4倍。

贊助商廣告

Nvidia希望趁財報，為其預計第4季上市的Blackwell平台晶片包括B100、B200暖場，但報道指出，新晶片因設瑕疵，推出進程可能會延遲到2025年第2季。

Nvidia宣稱，在最新的MLPerf Inference 4.1基準測試中，Nvidia平台做過所有數據中心的測試，其中Blackwell平台產品執行MLPerf最大的LLM工作負載Llama 2 70B的測試性能，比前一代Nvidia H100 Tensor Core GPU快高達4倍，這要拜第二代Transformer人工智慧引擎和FP4精度的Tensor Core核心所賜。

最新的MLPerf基準測試加入新的測試項目。其中包含專家混合（Mixture of Experts，MoE）模型，特別是Mixtral 8x7B模型。MoE模型之所以大行其道，是因為可支持多種任務、回答多種問題的企業開發需求，而且由於每次推論只需啟動幾個專家（而非整個模型），性能也更高。另一方面，LLM的推論應用持續增長，也推升對運算的需求，使多GPU（multi-GPU）運算成為必要。

有鑑於此，Nvidia指出，前代Hopper架構為基礎的Nvidia NVLink互聯技術和NV Switch晶片已經支持大型模型的即時推論。而新一代的Blackwell平台將進一步以72顆GPU及更大的NVLink域名擴展NV Switch晶片的能力。

除了新Blackwell架構，Nvidia並宣稱其H200 GPU搭載推論軟體Triton Inference Server在最近一次MLPerf測試表現，比前一次提升27%。而在邊緣運算平台上，NVIDIA Jetson AGX Orin SOM（system-on-modules）在執行GPT-J LLM模型的測試中，傳輸量提升6.2倍，而延遲性則改善2.4倍。Nvidia表示，這性能表現讓Jetson平台很適合於本地執行LLM、視覺transformer模型及Stable Diffusion模型等任務。