NVIDIA預測金融、醫療、零售、電信、媒體、娛樂、製造、能源等產業都會導入大型語言模型(Large Language Model,LLM)。LLM的發展相當快速,然而也面臨部署更複雜、運算更吃資源等問題。TensorRT-LLM是款高度優化的開源運算框架。它支持多種LLM,並可支持多GPU、多結點運算,以及工作調度、數據格式優化。根據NVIDIA提供的數據,H100 GPU搭配TensorRT-LLM能帶來8倍於A100 GPU的GPT-J 6B推論性能表現。至於Llama 2部分,H100 GPU搭配TensorRT-LLM則能帶來4.6倍於A100 GPU的推論性能。
TensorRT-LLM能夠支持多種大型語言模型,並在新時代軟硬體集成的助力下,最高可帶來8倍AI推論性能。
NVIDIA預測大型語言模型(Large Language Model,以下簡稱LLM)的應用將延伸至各行各業,其技術發展也相當快速,不過隨著模型的量體持續擴大,AI模型的部署也變的更加複雜,且需花費更多計算資源進行推論。
為了改善這個狀況,NVIDIA推出TensorRT-LLM運算框架,它具有高度優化與開源等特性,並支持GPT-3、Llama、Flacon 180B、BLOOM等LLM,以及SmoothQuant、FlashAttention、fMHA等AI核心(AI Kernel)。
此外TensorRT-LLM也支持多GPU、多結點運算,並導入能夠優化工作調度的In-Flight Batching技術,還能通過Transformer引擎自動將模型轉換為FP8數據格式,都對性能表現有所幫助。
雖然說上述性能數據所使用的GPU屬於不同時代產品,但看到。H100 GPU搭配TensorRT-LLM與單純使用H100,也能帶來約略1倍的性能增益,可見其軟體優化還是能帶來長足性能進步。