每逢節假日,DeepSeek 往往發布新品,也幾乎成了 AI 圈的「固定節目」。
據 The Information 最新報道,DeepSeek 計劃在未來幾周內發布新一代 AI 模型 V4,預計發布時間在 2 月中旬(春節)前後,但具體時間仍可能調整。
報道稱,根據 DeepSeek 內部基準測試結果,V4 在編程任務上的表現超越了目前市場上的主流模型,包括 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。
知情人士透露,該模型在處理和解析超長編程提示方面取得重大突破,這對開發複雜軟體項目的程序員具有重要價值。
此外,V4 在訓練過程中對數據模式的理解能力顯著提升,且不會隨著訓練次數增加而出現性能衰退,解決了 AI 模型訓練中的常見難題。
其中一位知情人士表示,用戶將能明顯感受到 V4 的回答更有條理,這說明新版本的推理能力更強,對於處理複雜任務也更可靠。
從近期動向來看,DeepSeek 的技術發布節奏也有所加快。
上周,DeepSeek 發布了一篇由 CEO 梁文鋒參與撰寫的研究論文,提出名為 mHC (流形約束超連接)的新架構。該研究致力於解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。(圖二)
此外,DeepSeek 本周也在 arXiv 低調把 R1 論文從 22 頁擴充到 86 頁(v2 版),一口氣公開了訓練全流程、超參數、失敗嘗試和完整評測。(圖三)
而針對上述 V4 的報道,截至發稿前,DeepSeek 未對此事作出回應。








