宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

開源新王!首次干翻GPT-5,實測Kimi K2 Thinking,中國AI殺瘋了

2025年11月07日 首頁 » 熱門科技

迄今為止最大最好的開源模型,總參數達 1 萬億,屠榜多個基準測試,Kimi K2 Thinking 來了。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

Kimi K2 Thinking 在 TAU 榜單(智能體工具調用能力測試)上排名第一,超過 OpenAI 和 Anthropic 的旗艦模型

一登場就是斬獲多個測試榜單的第一名,Kimi 也不玩開源只和開源比那一套,而是直接把 GPT-5、Claude 4.5 Sonnet 這樣的閉源模型放一起,非常自信。

 

智譜、MiniMax 自然語言處理部門負責人、以及 HuggingFace 聯合創始人紛紛在留言區留言祝賀

除了在工具使用的榜單上拿第一,人類最後考試(HLE)、BrowseComp、還有其他基準測試,Kimi K2 Thinking 基本上都占據了先進模型的前排位置。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

在跨學科專家級問題的 HLE 榜單、以及自主搜索的三個榜單上,排名第一;編程能力的三個榜單,得分也接近最好的 Claude 或 GPT 模型

無論是對智能體能力要求極高的編程任務、還是通用的推理寫作、深度搜索等方面,Kimi K2 Thinking 的性能表現可以說是,目前最接近封閉模型的開源模型。

延續了 7 月份,發布 K2 時,將其定位為自主智能路線圖的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能體智能)。它是一個推理的混合專家(MoE)模型,總參數量 1T,激活參數 32B,上下文長度 256K。

K2 Thinking 能在智能體工具調用中交錯思考,同時在保持任務目標的同時,持續進行 200 到 300 次順序工具調用。

儘管工具調用在類似的閉源模型上,已經成為某種程度上的標準,但 K2 Thinking 可能是第一個,具有如此多工具調用能力的開源模型。

對比 K2 0905,K2 Thinking 在具體的任務上的提升,我們總結了 Kimi 的技術部落格,有這些亮點。

 

 

解決需要百步推理的複雜難題:它能將一個龐大的目標分解為數百個子任務,然後像一個項目經理一樣,逐一執行。

官方舉例稱,它曾通過 23 個交錯的推理和工具調用,成功解決了一個博士級的數學難題。

更準確地找到詳細的資訊:通過執行動態的思考 → 搜索 → 瀏覽器使用 → 思考 → 代碼循環,K2 Thinkging 在面對模糊或冷門的搜索需求,能自己上網反覆搜索、瀏覽網頁、驗證證據,直到找到精準答案。

直接把想法變成可用的產品:K2 Thinking 特別擅長前端代碼(如 HTML、React),和其他 Vibe Coding 產品一樣,能直接把我們的想法寫成一個功能完善、響應迅速的網頁或軟體產品。

寫出更有人味的文章:邏輯嚴謹的專業長文,想像力豐富的創意故事,甚至是需要同理心的情感建議,K2 Thinking 在聊天問答這些通用能力上,能做到更紮實、更細膩的推理寫作。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

目前,Kimi K2 Thinking 已經在 Kimi 官網的聊天模式上線。

但需要注意的是,Kimi 解釋說為了保證用戶能獲得快速、輕量級的體驗,當前的網頁聊天版本,有選擇性地減少了部分工具的使用和調用次數。因此,直接在 kimi.com 上聊天,可能暫時無法完全復現上述基準測試中的極限分數。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

測試中提醒「高峰算力不足,請耐心等待」

此外,能充分發揮 Kimi K2 Thinking 能力的完整智能體模式(Full Agentic Mode)將很快更新。開發者也可以通過 Kimi k2 thinking API 來體驗。

我們也快速上手,實測了幾個常見的項目,一起來看看實際的體驗如何。

首先是編程任務,我們先讓他做了一個技能五子棋的小遊戲,要求是在普通的五子棋規則上,玩家可以使用技能。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

速度很快,出乎我的意料,一兩分鐘的時間,它就實現了全部的代碼,並且真的可以使用這些技能。

然後是騎自行車的鵜鶘,這個經典的測試大模型編程能力的項目,檢驗它的 SVG 代碼生成。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

雖然 K2 Thinking 寫著推理模型,但是它的推理速度非常快,這段動態的 SVG 代碼生成也只花了 1 分鐘不到。雖然這個鵜鶘好像有點不太對勁。

開啟長思考,即 K2 Thinking 的同時,能啟用網路搜索,當我們要它完成一個天氣卡片時,能看到 Kimi 會一邊自動檢索網路上的公開資料,一邊完成代碼的實現。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

確實能調用瀏覽器的獲取位置接口,但是在最後 Kimi 也提到,需要輸入對應的地圖 API 和 天氣資訊 API 等數據

現在已經是全民 vibe coding 的時代了,普通用戶還是程序員,都能從 K2 Thinking 的編程能力里,更快速地實現自己的想法。

在智能體搜索這個任務上,我們問了他一些專業領域的問題,測試它如何分解複雜問題、主動搜索、並整合難找的網路資訊的能力。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

可以看到,Kimi 搜索的資訊是比較全面的,當我規定了 2025 年以後,它網頁搜索的資料,也大多集中在最近這段時間以來的報道。

 

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

上下滑動查看更多內容

最後它給出的報告,也詳細的提到了三種 2025 的算法,以及主要的公司等內容。

其實工具調用,應該是 Kimi K2 Thinking 非常重要的能力,但是在我們的體驗中,發現大多數時候,他只是調用網路搜索工具,而沒有看到 200 多個工具流。(我的任務太簡單,還有可能是高峰期。)

我們在輸入一個物流邏輯問題時,很明顯是可以調用 Python 等代碼解釋器來輔助計算,但是 Kimi 只是和其他深度思考的模型一樣,一步步地推理。

關於 K2 Thinking 的寫作能力,我們找了一個表面上看起來是兩難的問題給它。

 

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

上下滑動查看更多內容

這個回答有夠人性化嗎。在我看來,很明顯不是空洞的套話,還提供了周到且具體的思考,也幫助我們平衡了原則和現實兩個方面,還有可操作的後續步驟。

在 AI 模型軍備競賽的今天,單純的問答,很明顯已經無法滿足,我們複雜的專業需求。像人類專家一樣,通過一步一步的推理思考,主動使用各種工具,來解決極其複雜的難題,成了所有大模型的標配。

根據 Kimi 官方文檔和技術分析的介紹,這次的思考能力突破關鍵在訓練方式,即高效的量化技術(INT4 QAT),這也是一個值得關注的行業亮點。

K2 Thinking 在後訓練階段採用了量化感知訓練 (QAT),讓模型能以 INT4 精度本地運行,推理速度提升約 2 倍,同時保持最佳性能。

也就是說,它不是訓練完再壓縮,而是在訓練過程中就貫穿低精度運算模型。這帶來了兩個巨大優勢,一個是推理速度的提升,一個是長鏈條推理,不會因為量化而造成邏輯崩潰。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

使用正確的量化技術,能節省 GPU 顯示記憶體並加快推理速度

此外,它的所有基準測試成績都是在 INT4 精度下報告的。說白了,這是一種「所見即所得」的性能,而不是實驗室精心調製的數據,K2 Thinking 生來就能跑得動

我們的實測也能看到,Kimi K2 Thinking 確實不僅僅是一個營銷噱頭,工具調用、量化技術、以及超長規劃,讓它在智能體方向上,推理速度上,都有不錯的表現。

雖然在某些方面,例如穩定的結果輸出、以及對提示詞更寬鬆的要求,還是比不上閉源模型。但是開源能做到這樣,我的心裡只有兩個字,佩服。

開源新王首次干翻GPT5實測KimiK2Thinking中國AI殺瘋了

過去兩年,國產模型的競爭大概是從 Qwen、百度這些模型,對 ChatGPT 的瘋狂追趕;到橫空出世的 DeepSeek 把推理成本降低的同時,還做到了和 o3 等推理模型,相媲美的表現。

讓國產 AI 開始走上了,完全不同於國外閉源模型的路線。OpenAI 發布一個 GPT-5 預熱了大半年,Anthropic 的 Claude 系列模型發布周期也在長達幾個月。

而 Kimi 在今年七月發布了 K2,九月發布了 K2 Instruct,十一月就迎來了 K2 Thinking;更不用說還有智譜、MiniMax、以及前段時間模型七連發的 Qwen。就連還在期待中的 DeepSeek R2,也更新 V3.2、OCR 等廣受好評的模型。

並且,這些模型全部開源。在海外社交媒體平台上,一年前大家可能只知道中國有 DeepSeek,而現在,Qwen 已經是 Hugging Face 上模型下載榜單的 Top 10,Kimi 和智譜(Z.ai)的 GLM 系列模型、以及 MiniMax 都成了大多數用戶青睞的模型。

K2 Thinking 的發布,我想是一個新的轉折點,就是當我們的開源模型,也能拿到和閉源模型一樣的基準分數時,閉源模型還可以講什麼樣的故事來營銷自己呢。

 

Gemini 3 據說在今年年底前將發布,而 OpenAI 似乎也害怕再像當時的 nano banana 一樣,搶走他的市場,計劃推出 GPT-5.1。

軍備競賽還在繼續,國產開源的力量,開始讓我們看到,一個好用的 AI,不是屠榜多少測試,是在具有真實用戶需求的領域,能真正地提供某些東西,並且惠及到所有人。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新