開源新王！首次干翻GPT-5，實測Kimi K2 Thinking，中國AI殺瘋了

迄今為止最大最好的開源模型，總參數達 1 萬億，屠榜多個基準測試，Kimi K2 Thinking 來了。

贊助商廣告

Kimi K2 Thinking 在 TAU 榜單（智能體工具調用能力測試）上排名第一，超過 OpenAI 和 Anthropic 的旗艦模型

一登場就是斬獲多個測試榜單的第一名，Kimi 也不玩開源只和開源比那一套，而是直接把 GPT-5、Claude 4.5 Sonnet 這樣的閉源模型放一起，非常自信。

Happy to see another top interleaved thinking model dropped after MiniMax M2. Good job guys!
— Pengyu Zhao (@zpysky1125) November 7, 2025

智譜、MiniMax 自然語言處理部門負責人、以及 HuggingFace 聯合創始人紛紛在留言區留言祝賀

除了在工具使用的榜單上拿第一，人類最後考試（HLE）、BrowseComp、還有其他基準測試，Kimi K2 Thinking 基本上都占據了先進模型的前排位置。

在跨學科專家級問題的 HLE 榜單、以及自主搜索的三個榜單上，排名第一；編程能力的三個榜單，得分也接近最好的 Claude 或 GPT 模型

無論是對智能體能力要求極高的編程任務、還是通用的推理寫作、深度搜索等方面，Kimi K2 Thinking 的性能表現可以說是，目前最接近封閉模型的開源模型。

延續了 7 月份，發布 K2 時，將其定位為自主智能路線圖的一部分，Kimi K2 Thinking 也是主打 Agentic Intelligence（智能體智能）。它是一個推理的混合專家（MoE）模型，總參數量 1T，激活參數 32B，上下文長度 256K。

K2 Thinking 能在智能體工具調用中交錯思考，同時在保持任務目標的同時，持續進行 200 到 300 次順序工具調用。

儘管工具調用在類似的閉源模型上，已經成為某種程度上的標準，但 K2 Thinking 可能是第一個，具有如此多工具調用能力的開源模型。

對比 K2 0905，K2 Thinking 在具體的任務上的提升，我們總結了 Kimi 的技術部落格，有這些亮點。

解決需要百步推理的複雜難題：它能將一個龐大的目標分解為數百個子任務，然後像一個項目經理一樣，逐一執行。

贊助商廣告

官方舉例稱，它曾通過 23 個交錯的推理和工具調用，成功解決了一個博士級的數學難題。

更準確地找到詳細的資訊：通過執行動態的思考 → 搜索 → 瀏覽器使用 → 思考 → 代碼循環，K2 Thinkging 在面對模糊或冷門的搜索需求，能自己上網反覆搜索、瀏覽網頁、驗證證據，直到找到精準答案。

直接把想法變成可用的產品：K2 Thinking 特別擅長前端代碼（如 HTML、React），和其他 Vibe Coding 產品一樣，能直接把我們的想法寫成一個功能完善、響應迅速的網頁或軟體產品。

寫出更有人味的文章：邏輯嚴謹的專業長文，想像力豐富的創意故事，甚至是需要同理心的情感建議，K2 Thinking 在聊天問答這些通用能力上，能做到更紮實、更細膩的推理寫作。

目前，Kimi K2 Thinking 已經在 Kimi 官網的聊天模式上線。

但需要注意的是，Kimi 解釋說為了保證用戶能獲得快速、輕量級的體驗，當前的網頁聊天版本，有選擇性地減少了部分工具的使用和調用次數。因此，直接在 kimi.com 上聊天，可能暫時無法完全復現上述基準測試中的極限分數。

測試中提醒「高峰算力不足，請耐心等待」

此外，能充分發揮 Kimi K2 Thinking 能力的完整智能體模式（Full Agentic Mode）將很快更新。開發者也可以通過 Kimi k2 thinking API 來體驗。

我們也快速上手，實測了幾個常見的項目，一起來看看實際的體驗如何。

首先是編程任務，我們先讓他做了一個技能五子棋的小遊戲，要求是在普通的五子棋規則上，玩家可以使用技能。

贊助商廣告

速度很快，出乎我的意料，一兩分鐘的時間，它就實現了全部的代碼，並且真的可以使用這些技能。

然後是騎自行車的鵜鶘，這個經典的測試大模型編程能力的項目，檢驗它的 SVG 代碼生成。

雖然 K2 Thinking 寫著推理模型，但是它的推理速度非常快，這段動態的 SVG 代碼生成也只花了 1 分鐘不到。雖然這個鵜鶘好像有點不太對勁。

開啟長思考，即 K2 Thinking 的同時，能啟用網路搜索，當我們要它完成一個天氣卡片時，能看到 Kimi 會一邊自動檢索網路上的公開資料，一邊完成代碼的實現。

確實能調用瀏覽器的獲取位置接口，但是在最後 Kimi 也提到，需要輸入對應的地圖 API 和天氣資訊 API 等數據

現在已經是全民 vibe coding 的時代了，普通用戶還是程序員，都能從 K2 Thinking 的編程能力里，更快速地實現自己的想法。

在智能體搜索這個任務上，我們問了他一些專業領域的問題，測試它如何分解複雜問題、主動搜索、並整合難找的網路資訊的能力。

贊助商廣告

可以看到，Kimi 搜索的資訊是比較全面的，當我規定了 2025 年以後，它網頁搜索的資料，也大多集中在最近這段時間以來的報道。

上下滑動查看更多內容

最後它給出的報告，也詳細的提到了三種 2025 的算法，以及主要的公司等內容。

其實工具調用，應該是 Kimi K2 Thinking 非常重要的能力，但是在我們的體驗中，發現大多數時候，他只是調用網路搜索工具，而沒有看到 200 多個工具流。（我的任務太簡單，還有可能是高峰期。）

我們在輸入一個物流邏輯問題時，很明顯是可以調用 Python 等代碼解釋器來輔助計算，但是 Kimi 只是和其他深度思考的模型一樣，一步步地推理。

關於 K2 Thinking 的寫作能力，我們找了一個表面上看起來是兩難的問題給它。

上下滑動查看更多內容

這個回答有夠人性化嗎。在我看來，很明顯不是空洞的套話，還提供了周到且具體的思考，也幫助我們平衡了原則和現實兩個方面，還有可操作的後續步驟。

在 AI 模型軍備競賽的今天，單純的問答，很明顯已經無法滿足，我們複雜的專業需求。像人類專家一樣，通過一步一步的推理思考，主動使用各種工具，來解決極其複雜的難題，成了所有大模型的標配。

根據 Kimi 官方文檔和技術分析的介紹，這次的思考能力突破關鍵在訓練方式，即高效的量化技術（INT4 QAT），這也是一個值得關注的行業亮點。

K2 Thinking 在後訓練階段採用了量化感知訓練 (QAT)，讓模型能以 INT4 精度本地運行，推理速度提升約 2 倍，同時保持最佳性能。

也就是說，它不是訓練完再壓縮，而是在訓練過程中就貫穿低精度運算模型。這帶來了兩個巨大優勢，一個是推理速度的提升，一個是長鏈條推理，不會因為量化而造成邏輯崩潰。

贊助商廣告

使用正確的量化技術，能節省 GPU 顯示記憶體並加快推理速度

此外，它的所有基準測試成績都是在 INT4 精度下報告的。說白了，這是一種「所見即所得」的性能，而不是實驗室精心調製的數據，K2 Thinking 生來就能跑得動。

我們的實測也能看到，Kimi K2 Thinking 確實不僅僅是一個營銷噱頭，工具調用、量化技術、以及超長規劃，讓它在智能體方向上，推理速度上，都有不錯的表現。

雖然在某些方面，例如穩定的結果輸出、以及對提示詞更寬鬆的要求，還是比不上閉源模型。但是開源能做到這樣，我的心裡只有兩個字，佩服。

過去兩年，國產模型的競爭大概是從 Qwen、百度這些模型，對 ChatGPT 的瘋狂追趕；到橫空出世的 DeepSeek 把推理成本降低的同時，還做到了和 o3 等推理模型，相媲美的表現。

讓國產 AI 開始走上了，完全不同於國外閉源模型的路線。OpenAI 發布一個 GPT-5 預熱了大半年，Anthropic 的 Claude 系列模型發布周期也在長達幾個月。

而 Kimi 在今年七月發布了 K2，九月發布了 K2 Instruct，十一月就迎來了 K2 Thinking；更不用說還有智譜、MiniMax、以及前段時間模型七連發的 Qwen。就連還在期待中的 DeepSeek R2，也更新 V3.2、OCR 等廣受好評的模型。

並且，這些模型全部開源。在海外社交媒體平台上，一年前大家可能只知道中國有 DeepSeek，而現在，Qwen 已經是 Hugging Face 上模型下載榜單的 Top 10，Kimi 和智譜（Z.ai）的 GLM 系列模型、以及 MiniMax 都成了大多數用戶青睞的模型。

K2 Thinking 的發布，我想是一個新的轉折點，就是當我們的開源模型，也能拿到和閉源模型一樣的基準分數時，閉源模型還可以講什麼樣的故事來營銷自己呢。

BREAKING 🚨: GPT-5.1 confirmed as new traces of "gpt-5-1-thinking" have been spotted on ChatGPT.

Gemini 3 vs GPT 5.1 soon 🥊 https://t.co/npmNxIWm6W pic.twitter.com/qAN1p655ck
— TestingCatalog News 🗞 (@testingcatalog) November 6, 2025

贊助商廣告

Gemini 3 據說在今年年底前將發布，而 OpenAI 似乎也害怕再像當時的 nano banana 一樣，搶走他的市場，計劃推出 GPT-5.1。

軍備競賽還在繼續，國產開源的力量，開始讓我們看到，一個好用的 AI，不是屠榜多少測試，是在具有真實用戶需求的領域，能真正地提供某些東西，並且惠及到所有人。