英偉達優化太牛了！DeepSeek V4單Token成本狂降80%

英偉達宣布，其Blackwell平台通過全棧推理軟體優化，已將DeepSeek V4模型的單Token成本在一個月內最高壓縮至原先的五分之一。

贊助商廣告

隨著行業從AI試點階段轉向生產型AI工廠，基礎設施選型的核心標準，已從單純的晶片峰值規格，轉向單位成本、單位功耗、指定延遲下能輸出的有效Token數量。

英偉達通過三層架構實現Token成本的大幅壓降：生產運營層負責分布式服務編排與自動擴縮容，應用加速層通過計算通信重疊、核心融合完成運行時優化，基礎設施訪問層直接調用GPU、網路與系統底層能力。

疊加分離式服務、NVLink大規模專家並行、NVFP4精度、多Token預測等技術後，Blackwell平台單GPU的Token吞吐量最高可提升20倍，英偉達也將單Token成本列為AI總擁有成本的核心指標，目前該平台已將這項指標降至行業最低水平。

多家推理服務商已落地相關優化：Baseten依託TensorRT-LLM開源庫在Blackwell上部署DeepSeek V4 Pro，每秒Token輸出量最高提升50%；Cognition藉助Dynamo推理框架管理GPU，無需從零搭建即可擴展強化學習工作負載；Together AI用TensorRT-LLM大幅縮短Cursor從模型優化到生產終端的落地路徑。

贊助商廣告

開源生態進一步放大了全棧優勢，PyTorch等主流框架原生基於CUDA搭建，新研究成果可直接在NVIDIA GPU上運行。DeepSeek V4發布後，vLLM、SGLang等框架快速適配Blackwell部署方案，一個月內就實現了最高5倍的性能提升。