迄今為止最大最好的開源模型,總參數達 1 萬億,屠榜多個基準測試,Kimi K2 Thinking 來了。

Kimi K2 Thinking 在 TAU 榜單(智能體工具調用能力測試)上排名第一,超過 OpenAI 和 Anthropic 的旗艦模型
一登場就是斬獲多個測試榜單的第一名,Kimi 也不玩開源只和開源比那一套,而是直接把 GPT-5、Claude 4.5 Sonnet 這樣的閉源模型放一起,非常自信。
Happy to see another top interleaved thinking model dropped after MiniMax M2. Good job guys!
— Pengyu Zhao (@zpysky1125) November 7, 2025
智譜、MiniMax 自然語言處理部門負責人、以及 HuggingFace 聯合創始人紛紛在留言區留言祝賀
除了在工具使用的榜單上拿第一,人類最後考試(HLE)、BrowseComp、還有其他基準測試,Kimi K2 Thinking 基本上都占據了先進模型的前排位置。

在跨學科專家級問題的 HLE 榜單、以及自主搜索的三個榜單上,排名第一;編程能力的三個榜單,得分也接近最好的 Claude 或 GPT 模型
無論是對智能體能力要求極高的編程任務、還是通用的推理寫作、深度搜索等方面,Kimi K2 Thinking 的性能表現可以說是,目前最接近封閉模型的開源模型。
延續了 7 月份,發布 K2 時,將其定位為自主智能路線圖的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能體智能)。它是一個推理的混合專家(MoE)模型,總參數量 1T,激活參數 32B,上下文長度 256K。
K2 Thinking 能在智能體工具調用中交錯思考,同時在保持任務目標的同時,持續進行 200 到 300 次順序工具調用。
儘管工具調用在類似的閉源模型上,已經成為某種程度上的標準,但 K2 Thinking 可能是第一個,具有如此多工具調用能力的開源模型。
對比 K2 0905,K2 Thinking 在具體的任務上的提升,我們總結了 Kimi 的技術博客,有這些亮點。
解決需要百步推理的複雜難題:它能將一個龐大的目標分解為數百個子任務,然後像一個項目經理一樣,逐一執行。
官方舉例稱,它曾通過 23 個交錯的推理和工具調用,成功解決了一個博士級的數學難題。
更準確地找到詳細的資訊:通過執行動態的思考 → 搜索 → 瀏覽器使用 → 思考 → 代碼循環,K2 Thinkging 在面對模糊或冷門的搜索需求,能自己上網反覆搜索、瀏覽網頁、驗證證據,直到找到精準答案。
直接把想法變成可用的產品:K2 Thinking 特別擅長前端代碼(如 HTML、React),和其他 Vibe Coding 產品一樣,能直接把我們的想法寫成一個功能完善、響應迅速的網頁或軟體產品。
寫出更有人味的文章:邏輯嚴謹的專業長文,想像力豐富的創意故事,甚至是需要同理心的情感建議,K2 Thinking 在聊天問答這些通用能力上,能做到更紮實、更細膩的推理寫作。

目前,Kimi K2 Thinking 已經在 Kimi 官網的聊天模式上線。
但需要注意的是,Kimi 解釋說為了保證用戶能獲得快速、輕量級的體驗,當前的網頁聊天版本,有選擇性地減少了部分工具的使用和調用次數。因此,直接在 kimi.com 上聊天,可能暫時無法完全復現上述基準測試中的極限分數。

測試中提醒「高峰算力不足,請耐心等待」
此外,能充分發揮 Kimi K2 Thinking 能力的完整智能體模式(Full Agentic Mode)將很快更新。開發者也可以通過 Kimi k2 thinking API 來體驗。
我們也快速上手,實測了幾個常見的項目,一起來看看實際的體驗如何。
首先是編程任務,我們先讓他做了一個技能五子棋的小遊戲,要求是在普通的五子棋規則上,玩家可以使用技能。

速度很快,出乎我的意料,一兩分鐘的時間,它就實現了全部的代碼,並且真的可以使用這些技能。
然後是騎自行車的鵜鶘,這個經典的測試大模型編程能力的項目,檢驗它的 SVG 代碼生成。

雖然 K2 Thinking 寫著推理模型,但是它的推理速度非常快,這段動態的 SVG 代碼生成也只花了 1 分鐘不到。雖然這個鵜鶘好像有點不太對勁。
開啟長思考,即 K2 Thinking 的同時,能啟用網路搜索,當我們要它完成一個天氣卡片時,能看到 Kimi 會一邊自動檢索網路上的公開資料,一邊完成代碼的實現。

確實能調用瀏覽器的獲取位置接口,但是在最後 Kimi 也提到,需要輸入對應的地圖 API 和 天氣資訊 API 等數據
現在已經是全民 vibe coding 的時代了,普通用戶還是程序員,都能從 K2 Thinking 的編程能力里,更快速地實現自己的想法。
在智能體搜索這個任務上,我們問了他一些專業領域的問題,測試它如何分解複雜問題、主動搜索、並整合難找的網路資訊的能力。

可以看到,Kimi 搜索的資訊是比較全面的,當我規定了 2025 年以後,它網頁搜索的資料,也大多集中在最近這段時間以來的報道。

上下滑動查看更多內容
最後它給出的報告,也詳細的提到了三種 2025 的算法,以及主要的公司等內容。
其實工具調用,應該是 Kimi K2 Thinking 非常重要的能力,但是在我們的體驗中,發現大多數時候,他只是調用網路搜索工具,而沒有看到 200 多個工具流。(我的任務太簡單,還有可能是高峰期。)
我們在輸入一個物流邏輯問題時,很明顯是可以調用 Python 等代碼解釋器來輔助計算,但是 Kimi 只是和其他深度思考的模型一樣,一步步地推理。
關於 K2 Thinking 的寫作能力,我們找了一個表面上看起來是兩難的問題給它。

上下滑動查看更多內容
這個回答有夠人性化嗎。在我看來,很明顯不是空洞的套話,還提供了周到且具體的思考,也幫助我們平衡了原則和現實兩個方面,還有可操作的後續步驟。
在 AI 模型軍備競賽的今天,單純的問答,很明顯已經無法滿足,我們複雜的專業需求。像人類專家一樣,通過一步一步的推理思考,主動使用各種工具,來解決極其複雜的難題,成了所有大模型的標配。
根據 Kimi 官方文檔和技術分析的介紹,這次的思考能力突破關鍵在訓練方式,即高效的量化技術(INT4 QAT),這也是一個值得關注的行業亮點。
K2 Thinking 在後訓練階段採用了量化感知訓練 (QAT),讓模型能以 INT4 精度本地運行,推理速度提升約 2 倍,同時保持最佳性能。
也就是說,它不是訓練完再壓縮,而是在訓練過程中就貫穿低精度運算模型。這帶來了兩個巨大優勢,一個是推理速度的提升,一個是長鏈條推理,不會因為量化而造成邏輯崩潰。

使用正確的量化技術,能節省 GPU 顯存並加快推理速度
此外,它的所有基準測試成績都是在 INT4 精度下報告的。說白了,這是一種「所見即所得」的性能,而不是實驗室精心調製的數據,K2 Thinking 生來就能跑得動。
我們的實測也能看到,Kimi K2 Thinking 確實不僅僅是一個營銷噱頭,工具調用、量化技術、以及超長規劃,讓它在智能體方向上,推理速度上,都有不錯的表現。
雖然在某些方面,例如穩定的結果輸出、以及對提示詞更寬鬆的要求,還是比不上閉源模型。但是開源能做到這樣,我的心裡只有兩個字,佩服。

過去兩年,國產模型的競爭大概是從 Qwen、百度這些模型,對 ChatGPT 的瘋狂追趕;到橫空出世的 DeepSeek 把推理成本降低的同時,還做到了和 o3 等推理模型,相媲美的表現。
讓國產 AI 開始走上了,完全不同於國外閉源模型的路線。OpenAI 發布一個 GPT-5 預熱了大半年,Anthropic 的 Claude 系列模型發布周期也在長達幾個月。
而 Kimi 在今年七月發布了 K2,九月發布了 K2 Instruct,十一月就迎來了 K2 Thinking;更不用說還有智譜、MiniMax、以及前段時間模型七連發的 Qwen。就連還在期待中的 DeepSeek R2,也更新 V3.2、OCR 等廣受好評的模型。
並且,這些模型全部開源。在海外社交媒體平台上,一年前大家可能只知道中國有 DeepSeek,而現在,Qwen 已經是 Hugging Face 上模型下載榜單的 Top 10,Kimi 和智譜(Z.ai)的 GLM 系列模型、以及 MiniMax 都成了大多數用戶青睞的模型。
K2 Thinking 的發布,我想是一個新的轉折點,就是當我們的開源模型,也能拿到和閉源模型一樣的基準分數時,閉源模型還可以講什麼樣的故事來營銷自己呢。
BREAKING 🚨: GPT-5.1 confirmed as new traces of "gpt-5-1-thinking" have been spotted on ChatGPT.
— TestingCatalog News 🗞 (@testingcatalog) November 6, 2025
Gemini 3 vs GPT 5.1 soon 🥊 https://t.co/npmNxIWm6W pic.twitter.com/qAN1p655ck
Gemini 3 據說在今年年底前將發布,而 OpenAI 似乎也害怕再像當時的 nano banana 一樣,搶走他的市場,計劃推出 GPT-5.1。
軍備競賽還在繼續,國產開源的力量,開始讓我們看到,一個好用的 AI,不是屠榜多少測試,是在具有真實用戶需求的領域,能真正地提供某些東西,並且惠及到所有人。






