今天上午，DeepSeek 扒完DeepSeekV4報告我翻出了這個隱藏彩蛋 V4 發布，直接把這個大模型瘋狂更新月推向了最高潮。

贊助商廣告

百萬上下文標配，性能比肩頂級閉源模型，首發適配華為昇騰晶片，隨便一個點單拎出來能寫一篇爆款頭條。

不過在我翻看 V4 的技術報告的時候，在訓練層面看到了一個被大部分人忽略的名詞：Muon 優化器。

這個技術名詞，怎麼看著這麼眼熟呢？

原來是前兩天發布的 Kimi 2.6 里，就是通過 Muon優化器，在相同的訓練量下實現了2倍的效率提升，並在 1 萬億參數規模上解決了訓練不穩定的難題。

早在上個月楊植麟站在英偉達扒完DeepSeekV4報告我翻出了這個隱藏彩蛋 GTC 2026 的舞台上，花了演講中最長的一個板塊講它。Kimi 是全世界第一個發論文證明 Muon 可以用在萬億參數大模型訓練上的團隊。

楊植麟是這樣說的：「用 MuonClip 而非 Adam 訓練 Transformer 大模型，效果會好得多。」正確實現後，token 效率提升 2 倍。在數據牆面前，這相當於把 50 萬億 token 用出了 100 萬億的效果。

現在，這項技術出現在了 DeepSeek V4 的訓練方案里。

我又回來翻了一下 Kimi K2 的架構底層，又發現了一個更有意思的細節：它用的是 DeepSeek-V3 扒完DeepSeekV4報告我翻出了這個隱藏彩蛋提出的 MLA（Multi-head Latent Attention）。

DeepSeek 的技術報告寫著 Kimi 的名字，Kimi 的架構底座寫著 DeepSeek 的名字。你中有我，我中有你。

這大概是中國 AI 圈最魔幻的一幕：兩家被外界反覆對比的開源雙子星，技術底層早就長到了一起。

而且，Kimi 類似這樣的巧合，已經不是第一次了。

五次「撞車」，五個拐點

算上 V4 和 K2.6 前後腳上線，這已經是 Kimi 和 DeepSeek 過去一年裡的第五次「撞車」了。

贊助商廣告▲ 圖片由 image-2 製作

五次「撞車」，如果只是時間重合，那叫巧合。但把每次發布的內容拉出來看，你會發現一條清晰的暗線：每次撞車恰好對應一個 AI 行業拐點的到來。

第一次是最戲劇性的。2025 年 1 月 20 日晚 8 點 10 分，DeepSeek R1 扒完DeepSeekV4報告我翻出了這個隱藏彩蛋發布並以 MIT 協議完全開源。不到兩小時後，Kimi k1.5 亮相。

兩者都瞄準同一件事：讓模型從「張嘴就來」變成「先想後說」，用強化學習跑通 Long-CoT 扒完DeepSeekV4報告我翻出了這個隱藏彩蛋長思維鏈推理。

在這之後，中國的開源力量就徹底改變了整個全球 AI 的格局。

後來 OpenAI 在一篇論文中點名指出：Kimi 和 DeepSeek 是「最早復現 OpenAI-o1 Long-CoT」的兩家公司。全世界只有這兩家中國公司看懂了 OpenAI 在做什麼，並且用自己的方式做了出來。

那是中國 AI 從「追隨者」開始變成「引領者」的分水嶺。

最近這次就是今天。四天之內，K2.6 帶來了 SWE-Bench Pro 扒完DeepSeekV4報告我翻出了這個隱藏彩蛋 58.6% 的 Agent 集群並行編程能力，V4 把百萬上下文做成了所有服務的標配，輸出長度拉到 384K tokens。

兩家同時推進國產晶片適配：V4 下半年支持華為昇騰 950，寒武紀扒完DeepSeekV4報告我翻出了這個隱藏彩蛋已完成 Day 0 適配；K2.6 支持國產晶片混合推理。

Agent 能力、編程天花板、百萬上下文、國產晶片適配、開源生態，全齊了。

從「學會思考」到「學會幹活」，從「改 Transformer」到「改算力底座」，五次撞車其實展現出來的，是中國 AI 不再一味對標 OpenAI ，逐漸不再依賴英偉達，在開源上走出屬於自己的路。

撞車背後的必然

發布撞車的巧合固然有意思，但更值得關注的，其實是巧合背後的一些必然。

讓我們先回到 DeepSeek 架構里的 Muon 。

楊植麟在 GTC 演講中講了一個技術困難：當 Kimi 把 Muon 擴展到 1 萬億參數時，訓練不穩定性成了攔路虎。最大 logits 爆炸超過 1000，正常值只有 50 到 100。

損失先降後升，根本無法收斂。他們的解法是 QK-Clip，對每個注意力頭計算最大 logit 的裁剪值，把查詢和鍵限制在合理範圍內。訓練損失不受影響，但穩定性問題消失了。

贊助商廣告

K2 模型用這套技術完成了訓練，創下機器學習史上最大規模 Muon 訓練的紀錄。

而 DeepSeek V4 的技術報告裡，Muon 被直接寫進了訓練方案。大多數模組用 Muon 加速收斂，嵌入層和預測頭仍用 AdamW，混合使用。這是對 Kimi 底層創新的一次直接引用。

反過來，Kimi K2 的底層架構採用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention，通過壓縮 KV 緩存大幅降低推理成本，是 V3 最核心的架構創新之一。

你的論文成了我的基礎設施，我的創新成了你的底座。寫在引用列表里的互相成就。

在矽谷，你很難看到這種事。OpenAI 和 Anthropic 之間的技術是「護城河」，能藏則藏。但 Kimi 和 DeepSeek 之間長出了一種更原始也更健康的關係：開源社區裡的正向循環。

Kimi 和 DeepSeek 是中國首批開源萬億參數模型的玩家，都相信 Scaling Law 扒完DeepSeekV4報告我翻出了這個隱藏彩蛋。技術路線上，DeepSeek 以推理模型見長，Kimi 以 Agent 能力著稱。

底層架構上，兩家都在挑戰同一批「古老」的基礎設施。Kimi 發了「注意力殘差」論文，DeepSeek 做了 mHC 殘差連接，都在改 ResNet 時代留下來的殘差連接方式。

在長文本這條線，Kimi 探索線性注意力（Kimi Linear），DeepSeek 探索稀疏注意力（DSA），殊途同歸。

所以當它們撞車時，與其說是巧合，不如說是對同一個方向的必然趨同。

用中國的晶片，跑中國的模型，對全世界開源

在 OpenRouter 上，Kimi 和 DeepSeek 穩居中國模型調用量前兩名。

Cursor 接入了 Kimi，日本樂天 Rakuten AI 3.0 基於 DeepSeek 開發。被海外產品「套殼」這件事，放在兩年前是恥辱，現在是勳章。

Meta 新模型 Muse Spark 發布時，官方 Blog 做的對比基準線里，Kimi 和 DeepSeek 跟 GPT-4、Claude 並排站著。英偉達 GTC 上，黃仁勛用來展示晶片性能的中國模型就是這兩家。

海外認可之外，更值得注意的是國產晶片這條線。H20 晶片已斷供一年，高端推理晶片短期內只有國產一個選項。兩家公司同時在做同一件事：讓中國模型跑在中國晶片上。

贊助商廣告

上周黃仁勛在播客訪談里說了一句話：「如果當初 DeepSeek 先在華為平台上發布，那對我們來說非常可怕。」

今天，V4真的首發適配華為昇騰，工程團隊把整個技術棧從 CUDA 遷移到了華為 CANN 框架，從算子庫到通信原語到內存管理，V4 的混合注意力、MoE 專家並行、FP4 量化訓練，幾乎每層從頭實現。寒武紀也在 Day 0 完成了 V4 全系列的 vLLM 推理適配，代碼已開源。

黃仁勛一語成讖。

而 Kimi 在國產晶片上走的路更早，也更深。為了給國產晶片「鋪路」，Kimi 在架構創新上掏出了兩個殺手鐧。

Kimi Linear 混合注意力架構把線性注意力層與全注意力層以 7:1 配比混合，將 KV 緩存體積壓縮到極低水平。實測數據很直觀：32K 上下文下，混合架構模型 KV 吞吐量僅 4.66 Gbps，同規模稠密模型高達 59.93 Gbps。

KV 緩存傳輸需求被壓到了普通以太網可承載的範圍，RDMA 高速網路從「必選項」變成了「可選項」。

在此基礎上，Kimi 聯合清華大學發布了 PrFaaS（預填充即服務）論文，把推理的 Prefill 階段和 Decode 階段徹底解耦，調度到不同異構硬體集群上。實測吞吐量提升 54%，首詞延遲降低 64%。

這套方案打破了「大模型推理必須綁定同一種高端 GPU」的前提：算力強的國產卡做 Prefill，頻寬強的國產卡做 Decode，各司其職。

贊助商廣告

DeepSeek 用 V4 證明了國產晶片能跑萬億參數的旗艦模型，Kimi 用架構創新證明了國產晶片可以跑得好、跑得省。

一個從工程適配切入，一個從架構設計切入，終點都是同一個：讓英偉達不再是唯一選項。

以前的國產 AI 敘事是「用英偉達的卡，追 OpenAI 的模型」。現在這對雙子星同時在寫另一個劇本：用中國的晶片，跑中國的模型，服務全世界的開發者。

你的 MLA 是我的基礎，我的 Muon 是你的加速器

回看這一周AI 行業的瘋狂更新，我們已經處在了一個新的轉折點。

同一周內，兩個中國團隊各自發布了萬億參數級開源模型，性能逼近甚至持平美國頂級閉源模型。這在一年前是不可想像的。

當閉源模型的價格是開源模型的 50 倍，開源陣營每隔幾個月就推出一個新的萬億參數選手，競爭天平正在發生微妙的傾斜。

這不是「贏了」或「超越」這麼簡單的勝負之分。閉源模型在複雜推理和系統可靠性上仍然有明顯優勢，Opus 4.6 的思考模式依然是 V4-Pro 追趕的目標。但開源陣營的速度、成本優勢和生態覆蓋面，正在改變這場競賽的規則本身。

除了這五次撞車發布，這兩家公司還有一個巧合。梁文鋒來自廣東湛江，楊植麟來自廣東汕頭。兩個廣東人，撐起全球開源 AI 半邊天。

梁文鋒像工程師哲學家，相信開源和底層創新，V4 發布公告結尾引的是荀子，「不誘於譽，不恐於誹，率道而行，端然正己。」

至於楊植麟在我看來像產品科學家，他認為用戶體驗和技術突破可以兼得，在 K2.6 發布時他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

一個古典，一個極客。就是這兩個風格迥異的創始人，一起定位了中國開源模型在世界坐標系的位置。

你的 MLA 是我的基礎，我的 Muon 是你的加速器。這大概也是中國在能短時間內引領全球開源 AI 的重要原因之一。

贊助商廣告

扒完DeepSeek V4報告，我翻出了這個隱藏彩蛋

五次「撞車」，五個拐點

撞車背後的必然

用中國的晶片，跑中國的模型，對全世界開源

你的 MLA 是我的基礎，我的 Muon 是你的加速器