宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

2025年11月11日 首頁 » 熱門科技

上周 Kimi K2 Thinking 發布,開源模型打敗 OpenAI 和 Anthropic,讓它社交媒體捲起不小的聲浪,網友們都在說它厲害,我們也實測了一波,在智能體、代碼和寫作能力上確實進步明顯。

剛剛 Kimi 團隊,甚至創始人楊植麟也來了,他們在 Reddit 上舉辦了一場資訊量爆炸的 AMA(有問必答)活動。

AMA With Moonshot AI, The Open-source Frontier Lab Behind Kimi K2 Thinking Model
byu/nekofneko inLocalLLaMA

 

Kimi 團隊三位聯創,楊植麟、周昕宇、吳育昕參與回答

面對社區的犀利提問,Kimi 不僅透露了下一代模型 K3 的線索、核心技術 KDA 的細節,還毫不避諱地談論了 460 萬的成本,以及與 OpenAI 在訓練成本、產品哲學上的巨大差異。

460 萬美元這個數字不是官方的數字,具體的訓練成本很難量化到多少錢

K3 什麼時候來,是看奧特曼的萬億美元數據中心什麼時候建成

K3 的技術將會繼續沿用,當前效果顯著的 KDA 注意力機制

視覺模型還需要我們去採集更多的數據,但目前已經在做了……

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

我們為你整理了這場 AMA 中最值得關注的幾個核心焦點,來看看這家現在算是國產開源老大的 AI 實驗室,是如何看待他們的模型,和未來 AI 的發展。

叫板 OpenAI,「我們有自己的節奏」

在這場 AMA 中,火藥味最足的部分,大概就是 Kimi 團隊對 OpenAI 的隔空回應。

最大的噱頭之一:K3 什麼時候來?Kimi 團隊的回答非常巧妙:「在奧特曼的萬億美元數據中心建成之前。

 

很明顯這一方面是幽默,因為沒有人知道 OpenAI 到底什麼時候才能建成那個數據中心,另一方面似乎也在回應外界對於 Kimi 能用更少資源追趕 GPT-5 的讚嘆。

當有網友貼臉開大,直接問 Kimi 怎麼看 OpenAI 要花這麼多錢在訓練上時,Kimi 坦言:「我們也不知道,只有奧特曼自己才知道」,並強硬地補充道,「我們有自己的方式和節奏。

這種自己的節奏,首先體現在產品哲學上。當被問到是否會像 OpenAI 一樣發布 AI 瀏覽器時,團隊直言 No:

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

我們不需要創建另一個 chromium 包裝器(瀏覽器套殼),來構建更好的模型。

他們強調,目前的工作還是專注於模型訓練,能力的體現會通過大模型助手來完成。

在訓練成本和硬體上,Kimi 也展現了精打細算的一面。社區好奇 K2 的訓練成本是否真的是傳聞中的 460 萬美元,Kimi 澄清了這個數字並不準確,但表示大部分的錢都是花在研究和實驗上,很難具體量化。

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

至於硬體,Kimi 承認他們使用的是 H800 GPU 和 Infiniband,雖然「不如美國的頂級 GPU 好,而且數量上也不占優勢」,但他們充分利用了每一張卡。

模型的個性與 AI 的垃圾味

一個好的模型,不僅要有智商,還要有個性。

很多用戶喜歡 Kimi K2 Instruct 的風格,認為它「比較少的諂媚,同時又像散文一樣,有洞察力且獨特」。

Kimi 解釋說,這是「預訓練(提供知識) 後訓練(增添風味)」共同作用的結果。不同的強化學習配方(即獎勵模型的不同選擇)會得到不同的風格,而他們也會有意的把模型設計為更不諂媚

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

大語言模型情商評估排名,圖片來源:https://eqbench.com/creative_writing.html

但與此同時,也有用戶直言 Kimi K2 Thinking 的寫作風格太「AI Slop 垃圾」,無論寫什麼話題,風格都太過於積極和正面,導致讀起來 AI 味就是很重。

他還舉例子說,要 Kimi 寫一些很暴力很對抗的內容時,它還是把整體的風格往積極正面那邊去靠近。

Kimi 團隊的回答非常坦誠,他們承認這是大語言模型的常見問題,也提到現階段的強化學習,就是會刻意地放大這種風格。

這種用戶體感與測試數據的矛盾,也體現在對 Benchmark(跑分)的質疑上

有網友尖銳地提問,Kimi K2 Thinking 是不是專門針對 HLE 等跑分進行了訓練,才會取得如此高分?畢竟這麼高的分數,好像和他實際使用中的智能不太匹配。

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

對此,Kimi 團隊解釋說,他們在改進自主推理方面取得了一些微小的進展,這剛好讓 K2 Thinking 在 HLE 上得分很高。但他們也坦誠了努力的方向,要進一步提升通用能力,以便在更多實際應用場景中和跑分一樣聰明。

網友還說,你看馬斯克的 Grok 因為做了很多 NSFW (非工作安全) 的工作,生成圖片和影片;Kimi 完全可以利用自己的寫作優勢,讓它完成一些 NSFW 的寫作,一定能為 Kimi 帶來很多的用戶。

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

Kimi 只能笑而不語,說這是一個很好的建議。未來是否會支持 NSFW 內容,可能還需要找到一些年齡驗證的方法,也需要進一步做好模型的對齊工作。

很明顯,現階段 Kimi 是不可能支持 NSFW。

核心技術揭秘:KDA、長推理與多模態

作為一家被稱為「開源先鋒實驗室」的公司,而 Reddit 本身也是一個非常龐大和活躍的技術社區,Kimi 也在這次的 AMA 中,分享了大量的技術細節。

10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的論文,詳細介紹了一種新型混合線性注意力架構 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

KDA 算法實現,論文鏈接:https://arxiv.org/pdf/2510.26692

通俗來說,注意力(Attention)就是 AI 在思考時,決定應該重點關註上下文哪些詞語的機制。和常見的完全注意力和線性注意力不同,KDA (Kimi Delta Attention),是一種更智能、更高效的注意力機制

在這次 AMA 活動中,Kimi 也多次提到,KDA 在長序列強化學習場景中展現了性能提升,並且 KDA 相關的想法很可能在 K3 中應用。

但 Kimi 也坦言,技術是有取捨的。對大多數大模型任務來說,目前混合注意力的主要目的是節省計算成本,並不是為了更好的推理;在長輸入和長輸出任務上,完全注意力的表現依然是更好的。

那麼,Kimi K2 Thinking 是如何做到超長推理鏈的呢,最多 300 個工具的思考和調用,還有網友認為甚至比 GPT-5 Pro 還要好?

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

Kimi Linear 模型結構

Kimi 認為這取決於訓練方式,他們傾向於使用相對更多的思考 token 以獲得最佳結果。此外,K2 Thinking 也原生支持 INT4,這也進一步加速了推理過程。

我們在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化訓練技術,這是一種高效的量化技術(INT4 QAT),Kimi 沒有訓練完再壓縮,而是在訓練過程中,就保持了低精度運算模型。

這能帶來兩個巨大的優勢,一個是推理速度的提升,一個是長鏈條的推理,不會因為訓練完再進行的壓縮量化,而造成邏輯崩潰。

最後,關於外界期待的視覺語言能力,Kimi 明確表示:目前正在完成這項工作。

之所以先發布純文本模型,是因為視覺語言模型的數據獲取,還有訓練,都需要非常多的時間,團隊的資源有限,只能優先選擇一個方向。

生態、成本與開放的未來

對於開發者和普通用戶關心的問題,Kimi 團隊也一一作答。

為什麼之前能處理 1M 上下文的模型消失了?Kimi 的回答言簡意賅:「成本太高了。」而對於 256K 上下文在處理大型代碼庫時依然不夠用的問題,團隊表示未來會計劃增加上下文長度。

在 API 定價上,有開發者質疑為何按「調用次數」而非 token 收費。對使用 Claude Code 等其他智能體工具進行編程的用戶來說,基於 API 請求次數的計費方式,是最不可控且最不透明的。

在發送提示之前,用戶根本無法明確工具將發起多少次 API 調用,或者任務將持續多長時間。

用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了

Kimi 會員計劃

Kimi 解釋說,我們用 API 調用,是為了讓用戶更清楚的知道費用是怎麼消耗的,同時符合他們團隊的成本規劃,但他們也鬆口表示會看看是否有更好的計算方法。

當有網友提到自己公司不允許使用其他聊天助手時,Kimi 藉機表達了他們的核心理念:

我們擁抱開源,因為我們相信通用人工智慧應該是一個帶來團結而不是分裂的追求。

而對於那個終極問題——AGI 什麼時候到來?Kimi 認為 AGI 很難定義,但人們已經開始感受到這種 AGI 的氛圍,更強大的模型也即將到來。

和去年瘋狂打廣告營銷的 Kimi 不同,在這場 AMA 里,楊植麟和團隊成員的回答;確實能讓人感受到在國產開源,逐漸占據全球大語言模型開源市場的背景下,Kimi 也更加有底氣,更明確了自己的節奏。

而這個節奏很明顯,就是在這場燒錢、甚至卷太空的 AI 競賽中,繼續走開源的路,才能推動技術往前走。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新