伴隨DeepSeek V4發布，華為宣布昇騰超節點系列產品全系支持

今天，DeepSeek V4-Pro與DeepSeek V4-Flash正式發布並開源。華為昇騰也同步宣布他們和DeepSeek緊密協同的最新成果——昇騰超節點全系列產品支持DeepSeek V4系列模型。

贊助商廣告

華為表示，昇騰950超節點可在8K輸入場景（Offline推理模式）下，實現DeepSeek V4‑Pro的TPOT延遲低至20ms且單卡decode吞吐4700TPS；而DeepSeek V4‑Flash的TPOT延遲為10ms時單卡decode吞吐1600TPS。

擁有這種成績，離不開昇騰950底層架構的三大升級：對FP8、MXFP8、MXFP4等先進格式的全面支持；硬體級稀疏訪存能力的大幅提升；創新的儲存架構設計，通過向量單元（Vector）與矩陣單元（Cube）的Memory共享降低延遲。

華為還表示，昇騰A3 64卡超節點結合大EP模式部署，通過vLLM引擎可實現DeepSeek V4-Flash在8K/1K輸入輸出場景下的2000+TPS單卡decode吞吐。昇騰A3同步支持DeepSeek V4-Pro的推理部署，且性能還在持續優化中。

軟體方面，昇騰CANN推出PyPTO編程範式，提供完善的Python API，讓開發者能夠更快上手進行開發。DeepSeek V4模型的TileLang-Ascend實現也已經在社區正式發布。

附帶一提，DeepSeek在DeepSeek-V4 版公告中表示，目前Pro的服務吞吐十分有限，但預計下半年昇騰950超節點批量上市後，價格會大幅下調。