宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

英偉達優化太牛了!DeepSeek V4單Token成本狂降80%

2026年07月02日 首頁 » 熱門科技

英偉達宣布,其Blackwell平台通過全棧推理軟體優化,已將DeepSeek V4模型的單Token成本在一個月內最高壓縮至原先的五分之一。

隨著行業從AI試點階段轉向生產型AI工廠,基礎設施選型的核心標準,已從單純的晶片峰值規格,轉向單位成本、單位功耗、指定延遲下能輸出的有效Token數量。

英偉達優化太牛了DeepSeekV4單Token成本狂降80

英偉達通過三層架構實現Token成本的大幅壓降:生產運營層負責分布式服務編排與自動擴縮容,應用加速層通過計算通信重疊、核心融合完成運行時優化,基礎設施訪問層直接調用GPU、網路與系統底層能力。

疊加分離式服務、NVLink大規模專家並行、NVFP4精度、多Token預測等技術後,Blackwell平台單GPU的Token吞吐量最高可提升20倍,英偉達也將單Token成本列為AI總擁有成本的核心指標,目前該平台已將這項指標降至行業最低水平。

英偉達優化太牛了DeepSeekV4單Token成本狂降80

多家推理服務商已落地相關優化:Baseten依託TensorRT-LLM開源庫在Blackwell上部署DeepSeek V4 Pro,每秒Token輸出量最高提升50%;Cognition藉助Dynamo推理框架管理GPU,無需從零搭建即可擴展強化學習工作負載;Together AI用TensorRT-LLM大幅縮短Cursor從模型優化到生產終端的落地路徑。

英偉達優化太牛了DeepSeekV4單Token成本狂降80

開源生態進一步放大了全棧優勢,PyTorch等主流框架原生基於CUDA搭建,新研究成果可直接在NVIDIA GPU上運行。DeepSeek V4發布後,vLLM、SGLang等框架快速適配Blackwell部署方案,一個月內就實現了最高5倍的性能提升。

英偉達優化太牛了DeepSeekV4單Token成本狂降80

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新