宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Nvidia公布Blackwell平台AI推論Llama 2執行性能,為前代GPU 4倍

2024年08月29日 首頁 » 熱門科技

Nvidia公布Blackwell平台AI推論Llama 2執行性能,為前代GPU 4倍


Nvidia昨(28)日公布財報,並公布下一代GPU架構Blackwell的執行性能,宣稱執行Llama 2的性能是前代產品的4倍。

Nvidia希望趁財報,為其預計第4季上市的Blackwell平台晶片包括B100、B200暖場,但報道指出,新晶片因設瑕疵,推出進程可能會延遲到2025年第2季。

Nvidia宣稱,在最新的MLPerf Inference 4.1基準測試中,Nvidia平台做過所有數據中心的測試,其中Blackwell平台產品執行MLPerf最大的LLM工作負載Llama 2 70B的測試性能,比前一代Nvidia H100 Tensor Core GPU快高達4倍,這要拜第二代Transformer人工智慧引擎和FP4精度的Tensor Core核心所賜。

最新的MLPerf基準測試加入新的測試項目。其中包含專家混合(Mixture of Experts,MoE)模型,特別是Mixtral 8x7B模型。MoE模型之所以大行其道,是因為可支持多種任務、回答多種問題的企業開發需求,而且由於每次推論只需啟動幾個專家(而非整個模型),性能也更高。另一方面,LLM的推論應用持續增長,也推升對運算的需求,使多GPU(multi-GPU)運算成為必要。

有鑑於此,Nvidia指出,前代Hopper架構為基礎的Nvidia NVLink互聯技術和NV Switch晶片已經支持大型模型的即時推論。而新一代的Blackwell平台將進一步以72顆GPU及更大的NVLink域名擴展NV Switch晶片的能力。

除了新Blackwell架構,Nvidia並宣稱其H200 GPU搭載推論軟體Triton Inference Server在最近一次MLPerf測試表現,比前一次提升27%。而在邊緣運算平台上,NVIDIA Jetson AGX Orin SOM(system-on-modules)在執行GPT-J LLM模型的測試中,傳輸量提升6.2倍,而延遲性則改善2.4倍。Nvidia表示,這性能表現讓Jetson平台很適合於本地執行LLM、視覺transformer模型及Stable Diffusion模型等任務。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新