就在剛剛,月之暗面正式發布並開源了 Kimi k2.5
。
官方技術報告的第一句話就不裝了:the most powerful open-source model to date——迄今為止最強大的開源模型。
與上一代模型不同,Kimi k2.5 並非簡單的「升級版」,而是一個基於 1.5T 混合視覺與文本 Token 預訓練的原生多模態模型。在這個基礎底座之上,Kimi 團隊構建了一套名為 Visual Agentic Intelligence
(視覺智能體智能)的系統。

SWE-Bench Verified(編程)和
HLE(人類最後考試)等硬核基準測試中,它不僅超越了 DeepSeek V3,甚至在多項指標上擊敗了閉源的 GPT 和 Gemini。
從「單兵作戰」到「集群思維」
這次發布的更新當中,Agent 集群堪稱是 Kimi k2.5 最具顛覆性的創新。
在過去的幾年裡,無論模型多強,面對超長、超複雜的任務(比如「幫我調研 100 家競品的定價策略」),它們通常只能串行處理:查完第 1 家,再查第 2 家……一旦中間出錯,整個任務鏈就容易斷裂。
Kimi k2.5 引入了全新的 Agent Swarm
(智能體集群) 架構,其核心理念是 Scaling Out, Not Just Up ——不僅要做大,更要做多。在 Swarm 模式下,Kimi k2.5 會自動扮演指揮官的角色。當接到一個複雜任務時,它不會自己悶頭干,而是瞬間動態創建並指揮多達 100 個智能體的工頭。
這些智能體可以是「AI 搜索員」、「AI 物理學家」、「AI 事實核查員」……它們在指揮官的調度下並行工作。技術文檔顯示,Kimi k2.5 支持高達 1500 次並行工具調用(Parallel Tool Calls)。
效果是立竿見影的。在官方演示的「尋找 100 個細分領域的 YouTube 頭部博主」任務中,人類需要幾天,傳統單體 AI 需要數小時,而 Kimi Agent Swarm 僅需幾分鐘。

數據顯示,相比傳統模式,Swarm 架構將端到端任務的執行時間減少了 80%,整體效率提升了 4.5 倍。

為了駕馭這種瘋狂的並發能力,Kimi 團隊採用了一種名為 PARL
(Parallel-Agent Reinforcement Learning) 的訓練方法。這讓模型學會了在沒有預定義工作流(Workflow)的情況下,自主拆解任務、分發任務、並處理並行反饋。即便某個子智能體失敗了(Serial Collapse),指揮官也能迅速感知並重新調度。
VLM 過時了,這是「視覺工程師」
如果說 Swarm 是 Kimi 的「大腦」,那麼 Visual Coding
(視覺編程) 就是它進化的「眼睛」。
K2.5 模型支持從簡單的自然語言對話生成完整的前端界面,並能有效處理交互式布局及滾動觸發等動態效果。在 Kimi k2.5 之前,市面上的 VLM(視覺語言模型)大多停留在「看圖說話」的階段——你給它一張網頁截圖,它告訴你「這裡有個紅色按鈕」。但如果你讓它寫代碼復刻這個網頁,它往往只能寫出一個死板的 HTML 骨架,根本不懂交互邏輯。
Kimi k2.5 在這裡實現了對傳統 VLM 的降維打擊。在下面的例子中,展示的是從影片復刻網站(Reconstructing a website from video)的操作,左邊為原影片,右邊為 Kimi 復刻的網站。
你只需要錄製一段網頁操作的影片投餵給 Kimi k2.5,它不僅能看懂靜態的 UI 布局,還能理解動態的交互邏輯——比如滾動觸發特效、複雜的卡片翻轉動畫等。然後,它會直接生成包含完整 CSS 和 JS 邏輯的可用代碼。
更驚人的是它做視覺調試(Visual Debugging)能力。寫完代碼後,Kimi k2.5 會「看」一眼渲染出來的頁面。如果發現「按鈕歪了」或者「顏色和原影片不一致」,它會像人類工程師一樣,基於視覺反饋去修改代碼,而不是盲目地重新生成。

這種「觀察-編碼-驗證-修正」的閉環能力,讓 Kimi k2.5 成為了目前開源界當之無愧的新王,代碼和視覺兩手抓。
在權威的 SWE-Bench Verified 測試中,Kimi k2.5 拿下了 76.8 的高分,這一成績不僅碾壓了 GPT 5.2,也超過了同為開源頂流的 DeepSeek V3.2。

當所有人都試圖把單一模型做得越來越大時,Kimi 展示了另一種可能:通過極致的視覺感知理解世界,通過龐大的智能體集群改造世界。
目前,Kimi k2.5 已在 Hugging Face 開源,同時 Agent Swarm 模式也已在 Kimi.com 上線。無論是用戶還是開發者而言,這可能是 2026 年最值得上手一試的開源模型。






