今天,DeepSeek
V4-Pro與DeepSeek V4-Flash
正式發布並開源。華為昇騰也同步宣布
他們和DeepSeek緊密協同的最新成果——昇騰超節點全系列產品支持DeepSeek V4系列模型。
華為表示,昇騰950超節點
可在8K輸入場景(Offline推理模式)下,實現DeepSeek V4‑Pro的TPOT延遲
低至20ms且單卡decode吞吐4700TPS;而DeepSeek V4‑Flash的TPOT延遲為10ms時單卡decode吞吐1600TPS。
擁有這種成績,離不開昇騰950底層架構的三大升級:對FP8、MXFP8、MXFP4等先進格式的全面支持;硬體級稀疏訪存能力的大幅提升;創新的儲存架構設計,通過向量單元(Vector)與矩陣單元(Cube)的Memory共享降低延遲。

華為還表示,昇騰A3 64卡超節點結合大EP模式部署,通過vLLM引擎可實現DeepSeek V4-Flash在8K/1K輸入輸出場景下的2000+TPS單卡decode吞吐。昇騰A3同步支持DeepSeek V4-Pro的推理部署,且性能還在持續優化中。
軟體方面,昇騰CANN推出PyPTO編程範式
,提供完善的Python API,讓開發者能夠更快上手進行開發。DeepSeek V4模型的TileLang-Ascend
實現也已經在社區正式發布。
附帶一提,DeepSeek在DeepSeek-V4 版公告
中表示,目前Pro的服務吞吐十分有限,但預計下半年昇騰950超節點批量上市後,價格會大幅下調。







