上周 Kimi K2 Thinking 發布,開源模型打敗 OpenAI 和 Anthropic,讓它社交媒體捲起不小的聲浪,網友們都在說它厲害,我們也實測了一波,在智能體、代碼和寫作能力上確實進步明顯。
剛剛 Kimi 團隊,甚至創始人楊植麟也來了,他們在 Reddit 上舉辦了一場資訊量爆炸的 AMA(有問必答)活動。
AMA With Moonshot AI, The Open-source Frontier Lab Behind Kimi K2 Thinking Model
byu/nekofneko inLocalLLaMA
Kimi 團隊三位聯創,楊植麟、周昕宇、吳育昕參與回答
面對社區的犀利提問,Kimi 不僅透露了下一代模型 K3 的線索、核心技術 KDA 的細節,還毫不避諱地談論了 460 萬的成本,以及與 OpenAI 在訓練成本、產品哲學上的巨大差異。
460 萬美元這個數字不是官方的數字,具體的訓練成本很難量化到多少錢
K3 什麼時候來,是看奧特曼的萬億美元數據中心什麼時候建成
K3 的技術將會繼續沿用,當前效果顯著的 KDA 注意力機制
視覺模型還需要我們去採集更多的數據,但目前已經在做了……

我們為你整理了這場 AMA 中最值得關注的幾個核心焦點,來看看這家現在算是國產開源老大的 AI 實驗室,是如何看待他們的模型,和未來 AI 的發展。
叫板 OpenAI,「我們有自己的節奏」
在這場 AMA 中,火藥味最足的部分,大概就是 Kimi 團隊對 OpenAI 的隔空回應。
最大的噱頭之一:K3 什麼時候來?Kimi 團隊的回答非常巧妙:「在奧特曼的萬億美元數據中心建成之前。」
More compute in the making.
— OpenAI (@OpenAI) September 23, 2025
Announcing 5 new Stargate sites with Oracle and SoftBank, putting us ahead of schedule on the 10-gigawatt commitment we announced in January. https://t.co/AWJQt02XZ4
很明顯這一方面是幽默,因為沒有人知道 OpenAI 到底什麼時候才能建成那個數據中心,另一方面似乎也在回應外界對於 Kimi 能用更少資源追趕 GPT-5 的讚嘆。
當有網友貼臉開大,直接問 Kimi 怎麼看 OpenAI 要花這麼多錢在訓練上時,Kimi 坦言:「我們也不知道,只有奧特曼自己才知道」,並強硬地補充道,「我們有自己的方式和節奏。」
這種自己的節奏,首先體現在產品哲學上。當被問到是否會像 OpenAI 一樣發布 AI 瀏覽器時,團隊直言 No:

我們不需要創建另一個 chromium 包裝器(瀏覽器套殼),來構建更好的模型。
他們強調,目前的工作還是專注於模型訓練,能力的體現會通過大模型助手來完成。
在訓練成本和硬體上,Kimi 也展現了精打細算的一面。社區好奇 K2 的訓練成本是否真的是傳聞中的 460 萬美元,Kimi 澄清了這個數字並不準確,但表示大部分的錢都是花在研究和實驗上,很難具體量化。

至於硬體,Kimi 承認他們使用的是 H800 GPU 和 Infiniband,雖然「不如美國的頂級 GPU 好,而且數量上也不占優勢」,但他們充分利用了每一張卡。
模型的個性與 AI 的垃圾味
一個好的模型,不僅要有智商,還要有個性。
很多用戶喜歡 Kimi K2 Instruct 的風格,認為它「比較少的諂媚,同時又像散文一樣,有洞察力且獨特」。
Kimi 解釋說,這是「預訓練(提供知識) 後訓練(增添風味)」共同作用的結果。不同的強化學習配方(即獎勵模型的不同選擇)會得到不同的風格,而他們也會有意的把模型設計為更不諂媚。

大語言模型情商評估排名,圖片來源:https://eqbench.com/creative_writing.html
但與此同時,也有用戶直言 Kimi K2 Thinking 的寫作風格太「AI Slop 垃圾」,無論寫什麼話題,風格都太過於積極和正面,導致讀起來 AI 味就是很重。
他還舉例子說,要 Kimi 寫一些很暴力很對抗的內容時,它還是把整體的風格往積極正面那邊去靠近。
Kimi 團隊的回答非常坦誠,他們承認這是大語言模型的常見問題,也提到現階段的強化學習,就是會刻意地放大這種風格。
這種用戶體感與測試數據的矛盾,也體現在對 Benchmark(跑分)的質疑上。
有網友尖銳地提問,Kimi K2 Thinking 是不是專門針對 HLE 等跑分進行了訓練,才會取得如此高分?畢竟這麼高的分數,好像和他實際使用中的智能不太匹配。

對此,Kimi 團隊解釋說,他們在改進自主推理方面取得了一些微小的進展,這剛好讓 K2 Thinking 在 HLE 上得分很高。但他們也坦誠了努力的方向,要進一步提升通用能力,以便在更多實際應用場景中和跑分一樣聰明。
網友還說,你看馬斯克的 Grok 因為做了很多 NSFW (非工作安全) 的工作,生成圖片和影片;Kimi 完全可以利用自己的寫作優勢,讓它完成一些 NSFW 的寫作,一定能為 Kimi 帶來很多的用戶。

Kimi 只能笑而不語,說這是一個很好的建議。未來是否會支持 NSFW 內容,可能還需要找到一些年齡驗證的方法,也需要進一步做好模型的對齊工作。
很明顯,現階段 Kimi 是不可能支持 NSFW。
核心技術揭秘:KDA、長推理與多模態
作為一家被稱為「開源先鋒實驗室」的公司,而 Reddit 本身也是一個非常龐大和活躍的技術社區,Kimi 也在這次的 AMA 中,分享了大量的技術細節。
10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的論文,詳細介紹了一種新型混合線性注意力架構 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。

KDA 算法實現,論文鏈接:https://arxiv.org/pdf/2510.26692
通俗來說,注意力(Attention)就是 AI 在思考時,決定應該重點關註上下文哪些詞語的機制。和常見的完全注意力和線性注意力不同,KDA (Kimi Delta Attention),是一種更智能、更高效的注意力機制。
在這次 AMA 活動中,Kimi 也多次提到,KDA 在長序列強化學習場景中展現了性能提升,並且 KDA 相關的想法很可能在 K3 中應用。
但 Kimi 也坦言,技術是有取捨的。對大多數大模型任務來說,目前混合注意力的主要目的是節省計算成本,並不是為了更好的推理;在長輸入和長輸出任務上,完全注意力的表現依然是更好的。
那麼,Kimi K2 Thinking 是如何做到超長推理鏈的呢,最多 300 個工具的思考和調用,還有網友認為甚至比 GPT-5 Pro 還要好?

Kimi Linear 模型結構
Kimi 認為這取決於訓練方式,他們傾向於使用相對更多的思考 token 以獲得最佳結果。此外,K2 Thinking 也原生支持 INT4,這也進一步加速了推理過程。
我們在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化訓練技術,這是一種高效的量化技術(INT4 QAT),Kimi 沒有訓練完再壓縮,而是在訓練過程中,就保持了低精度運算模型。
這能帶來兩個巨大的優勢,一個是推理速度的提升,一個是長鏈條的推理,不會因為訓練完再進行的壓縮量化,而造成邏輯崩潰。
最後,關於外界期待的視覺語言能力,Kimi 明確表示:目前正在完成這項工作。
之所以先發布純文本模型,是因為視覺語言模型的數據獲取,還有訓練,都需要非常多的時間,團隊的資源有限,只能優先選擇一個方向。
生態、成本與開放的未來
對於開發者和普通用戶關心的問題,Kimi 團隊也一一作答。
為什麼之前能處理 1M 上下文的模型消失了?Kimi 的回答言簡意賅:「成本太高了。」而對於 256K 上下文在處理大型代碼庫時依然不夠用的問題,團隊表示未來會計劃增加上下文長度。
在 API 定價上,有開發者質疑為何按「調用次數」而非 token 收費。對使用 Claude Code 等其他智能體工具進行編程的用戶來說,基於 API 請求次數的計費方式,是最不可控且最不透明的。
在發送提示之前,用戶根本無法明確工具將發起多少次 API 調用,或者任務將持續多長時間。

Kimi 會員計劃
Kimi 解釋說,我們用 API 調用,是為了讓用戶更清楚的知道費用是怎麼消耗的,同時符合他們團隊的成本規劃,但他們也鬆口表示會看看是否有更好的計算方法。
當有網友提到自己公司不允許使用其他聊天助手時,Kimi 藉機表達了他們的核心理念:
我們擁抱開源,因為我們相信通用人工智慧應該是一個帶來團結而不是分裂的追求。
而對於那個終極問題——AGI 什麼時候到來?Kimi 認為 AGI 很難定義,但人們已經開始感受到這種 AGI 的氛圍,更強大的模型也即將到來。
和去年瘋狂打廣告營銷的 Kimi 不同,在這場 AMA 里,楊植麟和團隊成員的回答;確實能讓人感受到在國產開源,逐漸占據全球大語言模型開源市場的背景下,Kimi 也更加有底氣,更明確了自己的節奏。
而這個節奏很明顯,就是在這場燒錢、甚至卷太空的 AI 競賽中,繼續走開源的路,才能推動技術往前走。






