剛剛！微博宣布了自研模型：1.5B參數的VibeThinker打敗671B的DeepSeek R1？

這是一個關於"小個子選手"在AI競技場上戰勝"巨人"的精彩故事。2025年11月，來自新浪微博公司的研究團隊發表了一篇技術報告，介紹了他們開發的VibeThinker-1.5B模型。這篇論文發布在arXiv預印本平台上，引起了AI研究界的廣泛關注。

贊助商廣告

一個只有15億參數的小模型，竟然在多項複雜的數學和編程測試中擊敗了擁有6710億參數的DeepSeek 剛剛微博宣布了自研模型15B參數的VibeThinker打敗671B的DeepSeekR1 R1模型，後者的體積是前者的400多倍！更令人驚訝的是，訓練這個小模型的總成本只有7800美元，而那些大模型的訓練成本動輒數十萬美元。

長期以來，AI界有一個被廣泛接受的共識：想要讓模型變得更聰明，就必須把它做得更大。就像蓋房子一樣，想要房子更豪華，就得用更多的材料、更大的空間。按照這個邏輯，那些擁有數千億參數的超大模型理應在各種任務上碾壓小模型。但VibeThinker的出現打破了這個認知，它證明了通過精巧的訓練方法，小模型也能擁有媲美甚至超越大模型的推理能力。

這個發現意味著它大幅降低了AI研究和應用的門檻。如果小模型就能解決問題，那麼普通大學、中小企業甚至個人開發者都有機會參與到AI創新中來，而不是只有谷歌、OpenAI這樣的科技巨頭才能玩得起。其次，小模型的推理速度更快、能耗更低，可以部署在手機、汽車這樣的邊緣設備上，讓AI真正走進千家萬戶。最後，這項研究挑戰了"大即是好"的簡單粗暴思維，提醒我們：有時候，聰明的方法比蠻力更重要。

研究團隊的核心創新在於提出了一個叫做"頻譜到信號原理"（Spectrum-to-Signal Principle，簡稱SSP）的訓練框架。這個聽起來有點學術的名字，其實可以用一個簡單的比喻來理解。想像你正在調試一台收音機：第一步是旋轉旋鈕，讓收音機接收到儘可能多的頻段信號，這就像是"頻譜階段"，目標是增加多樣性；第二步是鎖定清晰度最好、內容最有價值的那個頻道，這就是"信號階段"，目標是找到最佳答案。傳統的訓練方法往往只關注第二步，而VibeThinker創新性地強調了第一步的重要性：只有先擁有豐富的"頻譜"，才能找到最強的"信號"。

贊助商廣告

現在讓我們深入探討VibeThinker是如何做到這一切的。

核心訓練理念：為什麼多樣性比單一正確答案更重要？

傳統的AI訓練方法有點像應試教育：給模型一道題，告訴它標準答案，然後讓它反覆練習直到每次都能答對。這種方法的問題在於，模型可能只學會了一種解題套路，遇到稍微不同的題目就懵了。VibeThinker的訓練理念完全不同，它更像是質素教育：鼓勵模型探索多種解題思路，即使這些思路一開始不那麼完美。

用一個烹飪的比喻來解釋這個理念會更清楚。假設你想學做一道菜，比如宮保雞丁。傳統方法就是給你一個標準菜譜，讓你嚴格按照步驟操作，每次都追求做出和範例一模一樣的味道。而VibeThinker的方法是：第一步，嘗試各種不同的做法，有的人多放辣椒，有的人多放花生，有的人用雞胸肉，有的人用雞腿肉；第二步，品嘗所有這些不同版本，找出最好吃的幾種，然後總結它們的共同特點和成功要素。通過這個過程，你不僅學會了做宮保雞丁的標準方法，還理解了這道菜的核心原理，以後碰到類似的菜也能舉一反三。

研究團隊把這個理念總結為"頻譜到信號原理"。在第一階段（監督微調），他們不追求模型的單次答題準確率（Pass@1），而是優化一個叫Pass@K的指標。這個指標的意思是：給模型一道題，讓它生成K個不同的答案，只要這K個答案中至少有一個是對的，就算成功。這樣做的好處是，模型學會了從多個角度思考問題，建立起了一個豐富的"解題方案庫"。在第二階段（強化學習），模型就可以從這個方案庫中篩選和強化那些真正有效的方法。

為什麼這種方法對小模型特別重要？因為小模型的參數少，"腦容量"有限，必須用最高效的方式學習。如果只是死記硬背標準答案，小模型很快就會"腦子裝滿"，無法應對新問題。但如果讓它學會了多樣化的思考方式，它就能用有限的參數做更多的事情。這就像是一個人雖然記憶力不如別人，但思維靈活、善於舉一反三，照樣能在考試中取得好成績。

贊助商廣告

兩階段多樣性探索蒸餾：如何教會模型多角度思考？

VibeThinker訓練的第一階段叫做"兩階段多樣性探索蒸餾"，聽起來很複雜，但用一個簡單的比喻就能說清楚。想像你是一位武俠小說里的掌門，要培養一個弟子成為絕世高手。你手下有四位師傅，分別精通劍法、刀法、拳法和掌法。你的目標是讓弟子學會各家之長，成為一個全能型選手。你會怎麼做？

第一步，你讓弟子分別跟四位師傅學習，每個師傅只教自己最擅長的那一套。這就是"領域感知多樣性探測"階段。研究團隊把數學問題分成了四個子領域：代數、幾何、微積分和統計。對於每個子領域，他們讓模型在訓練過程中定期停下來接受測試，看看它在生成多樣化答案方面的表現如何。每個子領域都會找出一個"最擅長生成多樣化答案"的模型版本，就像是找出了四位"專家"。

第二步，你讓弟子把四位師傅教的東西融會貫通，形成自己獨特的武功體系。這就是"專家模型融合"階段。研究團隊把四個專家模型的參數進行了線性融合，簡單說就是把它們的"技能"平均混合在一起。最終得到的模型既會代數的多種解法，也會幾何的多種思路，還懂微積分和統計的各種技巧。這個融合後的模型就成了第一階段的輸出，它的特點是"知識面廣、思路靈活"。

有趣的是，研究團隊發現，這個經過多樣性優化的模型不僅Pass@K指標高（意味著它能生成很多正確答案），Pass@1指標也不低（意味著它單次答題的準確率也不差）。這說明多樣性和準確性並不矛盾，反而是相輔相成的。就像一個真正的武林高手，不僅招式多變，每一招的威力也不弱。

這種訓練方法還有一個額外的好處：它能幫助研究團隊發現模型的薄弱環節。如果某個子領域的多樣性表現一直不好，說明模型在這個領域的理解還不夠深入，需要針對性地加強訓練。這就像是找到了學生的"偏科"問題，然後有針對性地輔導。

贊助商廣告

最大熵引導策略優化：如何讓模型學會挑選最佳答案？

經過第一階段的訓練，模型已經學會了生成多樣化的答案，但還不太會判斷哪個答案最好。這就像是一個廚師學會了做菜的各種技巧，但還不太確定哪種做法能讓顧客最滿意。第二階段的訓練就是要解決這個問題，研究團隊使用的方法叫做MGPO（最大熵引導策略優化）。

要理解MGPO，我們先來玩一個猜硬幣的遊戲。我手裡有一枚硬幣，多次拋擲後，你需要猜測它是正面朝上還是反面朝上。如果我告訴你"這枚硬幣100次拋擲中有100次都是正面"，你會很有把握地猜"正面"，因為這個硬幣的行為非常確定。如果我告訴你"100次中有50次正面，50次反面"，你就完全沒把握了，因為這個硬幣的行為充滿了不確定性。在資訊論中，我們用"熵"這個概念來衡量不確定性，50-50的情況就是"最大熵"狀態。

MGPO的核心思想是：那些讓模型處於"最大熵"狀態的題目，也就是模型"拿不準"的題目，才是最有訓練價值的。想想看，如果一道題模型已經能100%答對了，反覆訓練它也學不到什麼新東西；如果一道題模型怎麼都答不對，可能是因為這道題超出了它的能力範圍，訓練效果也不好。只有那些模型"半懂不懂"的題目，有時能答對，有時答不對，才是最好的學習材料，因為這些題目正好處在模型能力的邊界上，稍加訓練就能有突破。

具體操作是這樣的：研究團隊讓模型對每道題生成多個答案，然後計算正確答案的比例。如果這個比例接近50%，說明模型對這道題的把握度正好在"不確定"的狀態，就給這道題更高的訓練權重；如果比例接近0%或100%，說明模型要麼完全不懂，要麼已經完全掌握，就降低訓練權重。這種動態調整訓練重點的方法，讓模型總是在最需要提升的地方下功夫。

用學習的比喻來說，MGPO就像是一個智能的私人教師。它會根據學生的表現動態調整教學內容：學生已經掌握的知識就少講，學生完全不懂的知識就暫時放一放，重點講那些學生"似懂非懂"的內容。這樣的教學效率最高，學生進步最快。

贊助商廣告

研究團隊還做了一個巧妙的設計：在MGPO訓練中，他們特別獎勵那些"低概率但正確"的答案。什麼意思呢？假設模型對一道題生成了十個答案，其中九個是錯的，只有一個是對的，而且這個對的答案非常罕見。MGPO會特別強化這個罕見答案的生成概率，因為它代表了模型"靈光一現"的正確思路。通過不斷強化這些"靈光一現"的時刻，模型就能逐漸提高在困難問題上的表現。這有點像是培養創新思維：不是讓人總是按部就班地解題，而是鼓勵那些偶爾出現的、非常規但有效的解題思路。

整個第二階段的訓練分成了三個小步驟。首先是在16K上下文長度（可以理解為題目的複雜程度）下進行數學推理訓練；然後擴展到32K上下文長度，處理更複雜的數學問題；最後是編程任務的訓練。這種循序漸進的方式，確保了模型在每個階段都能充分吸收知識，不會因為難度跳躍太大而"消化不良"。

數據處理與成本控制：如何用有限資源達到最佳效果？

VibeThinker的成功不僅在於訓練方法的巧妙，還在於對數據的精心處理和對成本的嚴格控制。這兩個方面往往被忽視，但對於小模型來說卻至關重要。

首先是數據去污染問題。什麼是數據污染？想像你在準備考試，考試題目恰好是你平時練習過的原題，那你考高分就不稀奇了，因為這不能真實反映你的能力。AI模型也一樣，如果訓練數據中混入了測試題目的答案，模型在測試時的好成績就是虛假的。研究團隊非常重視這個問題，他們使用了一種叫"10-gram匹配"的技術來識別和剔除可能與測試集重複的訓練數據。這個技術的原理是：把文本分成每10個詞一組的片段，如果訓練數據中有片段和測試數據高度相似，就認為存在污染風險，將其刪除。

這裡有一個有趣的爭議。有研究者質疑說，某些模型（比如VibeThinker的基礎模型Qwen2.5-Math-1.5B）可能本身就存在數據污染，所以才能在某些測試上表現不錯。但研究團隊用兩個事實反駁了這種質疑。第一，基礎模型在AIME24、AIME25這些測試上的得分非常低（分別只有6.7和4.3分），如果真的存在數據污染，不應該這麼差。第二，VibeThinker在2025年才發布的全新測試集（如AIME25和HMMT25）上表現優異，而這些測試集的題目不可能在2024年發布的基礎模型訓練數據中出現。這就像是一個學生在舊版教材的題目上做得不好，但在全新出版的試卷上反而考得很好，顯然不是因為提前知道了答案，而是真正學會了知識。

贊助商廣告

其次是成本控制。訓練一個AI模型就像建造一座大樓，需要大量的計算資源。VibeThinker的訓練總共用了3900個GPU小時，使用的是NVIDIA H800這種高性能顯卡。按照市場價格每GPU小時2美元計算，總成本不到8000美元。相比之下，DeepSeek R1的訓練成本是29.4萬美元，MiniMax-M1的成本更是高達53.5萬美元。VibeThinker的成本只有它們的三十分之一到六十分之一。這種巨大的成本差異，主要來自於模型規模的差異，小模型需要的計算資源少得多。

但便宜不意味著偷工減料。研究團隊在有限的預算內做到了精打細算。他們使用的訓練數據大部分來自公開數據集，只有小部分是自己合成的專業數據。這就像是做菜時，大部分食材從市場買，只有關鍵調料自己特製。這種"開源為主、自研為輔"的策略，既保證了數據質量，又大幅降低了數據準備的成本。

最後值得一提的是推理成本。訓練只是一次性投入，而推理（也就是實際使用模型）是持續性的開銷。小模型的推理速度快、能耗低，可以部署在手機、汽車等邊緣設備上，不需要連接雲端伺服器。研究團隊估算，VibeThinker的推理成本是那些大模型的二十分之一到七十分之一。這意味著，如果一個應用服務每天要處理一百萬次查詢，使用VibeThinker可以節省數萬美元的運營成本。

測試結果：小個子選手如何在各項競賽中嶄露頭角？

說了這麼多訓練方法，最關鍵的問題來了：VibeThinker的實際表現到底如何？研究團隊在多個極具挑戰性的測試集上進行了評估，結果令人印象深刻。

我們先來看數學測試。AIME（美國數學邀請賽）是一項面向高中生的高難度數學競賽，只有在AMC（美國數學競賽）中得分最高的學生才有資格參加。AIME的題目涵蓋代數、幾何、數論等多個領域，需要深入的數學理解和巧妙的解題技巧。在AIME 2024測試中，VibeThinker的得分是80.3分（滿分150分），超過了DeepSeek R1的79.8分。要知道，DeepSeek R1是一個6710億參數的巨型模型，體積是VibeThinker的447倍！在AIME 2025測試中，VibeThinker得分74.4分，比DeepSeek R1的70.0分高出4.4分。這就像是一個體重50公斤的拳擊手擊敗了一個200公斤的對手。

贊助商廣告

更有說服力的是HMMT（哈佛麻省理工數學錦標賽）2025的結果。HMMT是全球頂尖的高中數學競賽之一，難度極高。VibeThinker在這項測試中得分50.4分，而DeepSeek R1隻有41.7分。這個差距已經不是"險勝"，而是"明顯優勢"了。研究團隊還對比了其他一些大模型的表現，比如Phi-4 Reasoning（147億參數）得分43.8，Magistral Small（240億參數）得分43.5，都不如VibeThinker。這充分說明，在邏輯推理任務上，模型的"智商"不完全取決於"體重"。

在編程測試上，VibeThinker也表現不俗。LiveCodeBench是一個評估AI編程能力的基準測試，題目來自實際的編程競賽網站，包括算法設計、代碼實現、調試等多個方面。在LiveCodeBench V6測試中，VibeThinker得分51.1分，略微超過了商業模型Magistral Medium的50.3分。考慮到VibeThinker的基礎模型在編程任務上完全不行（得分0分），這個提升可以說是質的飛躍。這就像是一個從來沒學過編程的人，通過系統訓練成為了合格的程序員。

不過，研究團隊也坦誠地指出了VibeThinker的局限性。在GPQA（研究生級別問答）測試中，VibeThinker的得分只有46.7分，而那些大模型的得分普遍在70-80分之間。GPQA的題目涉及物理、化學、生物等多個領域的專業知識，需要模型擁有廣博的知識儲備。在這種任務上，小模型的劣勢就顯現出來了，它的"腦容量"有限，無法記住所有領域的所有知識。這就像是讓一個小背包和一個大行李箱比誰裝的東西多，小背包肯定是比不過的。

但即便如此，VibeThinker在GPQA上的表現也超過了它的基礎模型（16.4分），提升了30多分。這說明通過精心的訓練，即使是小模型也能在知識密集型任務上有所進步。研究團隊呼籲學界重視提升小模型的通用知識能力，因為這是小模型真正走向實用化的關鍵瓶頸。

從成本效益的角度來看，VibeThinker的性價比簡直爆表。它用不到8000美元的訓練成本，達到了那些花費數十萬美元訓練的大模型的水平。如果把訓練成本和性能畫成一張圖，VibeThinker無疑是位於"高性價比"區域的明星選手。這種效率優勢，對於預算有限的研究團隊和企業來說，具有巨大的吸引力。

贊助商廣告

技術細節：給開發者的一些啟示

VibeThinker的成功不是偶然的，它背後有許多值得學習的技術細節。這些細節雖然專業，但我們可以用通俗的方式理解它們的價值。

首先是模型融合技術。在第一階段訓練中，研究團隊得到了四個專家模型，分別擅長不同的數學子領域。如何把它們合併成一個統一的模型呢？最簡單的方法是"平均融合"，就是把四個模型的參數直接平均。研究團隊採用的就是這種方法，每個專家模型占25%的權重。這種方法簡單有效，就像是做果汁時把四種水果等量混合，既保留了每種水果的味道，又創造了一種全新的口感。

其次是採樣策略。在測試時，VibeThinker對每道題會生成多個答案，然後從中選擇最好的一個。這個過程用到了一種叫"核採樣"（nucleus sampling）的技術，參數top_p設置為0.95。這個技術的原理是：模型生成每個詞時，不是簡單地選擇概率最高的詞，而是從概率累計達到95%的詞中隨機選擇。這樣做的好處是，既保證了生成內容的合理性，又引入了一定的隨機性，避免答案過於死板。數學任務的採樣溫度設為1.0，編程任務設為0.6，溫度越高，隨機性越大，創造性越強；溫度越低，答案越確定，穩定性越好。

再次是多階段訓練策略。VibeThinker的訓練不是一蹴而就的，而是分成了多個階段：先做16K上下文的數學訓練，再做32K上下文的數學訓練，最後做編程訓練。這種循序漸進的方式，確保了模型在每個階段都能充分學習，不會因為任務突然變難而"學不會"。這就像是健身時先做輕重量訓練，再逐漸加重，最後挑戰大重量，而不是一上來就舉最重的槓鈴。

最後是評估方法。研究團隊在評估時採用了Pass@K的方法，具體來說就是讓模型對每道題生成K個答案，只要其中有一個正確就算通過。數學任務K設為64，編程任務K設為8。為什麼不同任務的K值不一樣？因為數學題往往有多種解法，生成64個答案能更好地展現模型的多樣性；而編程題的正確答案相對唯一，生成8個就足夠了。這種靈活的評估方法，既全面又高效。

贊助商廣告

這些技術細節看似瑣碎，但正是它們的精妙配合，才成就了VibeThinker的優異表現。對於AI開發者來說，這些經驗都是寶貴的參考。

VibeThinker的故事告訴我們：在AI的世界裡，"大"不一定等於"強"。通過精巧的訓練方法、合理的資源分配和對問題本質的深刻理解，小模型也能擁有媲美甚至超越大模型的能力。這不僅是技術上的突破，更是理念上的創新，它提醒我們，不要迷信規模，而要追求效率；不要依賴蠻力，而要發揮巧勁。

當然，VibeThinker也並非完美無缺。它在通用知識任務上的表現仍然落後於大模型，這說明小模型還有很長的路要走。但這項研究已經證明，小模型的潛力遠比我們想像的大。未來的AI發展，可能不再是一味追求"更大更強"，而是在"大小結合、各展所長"的方向上百花齊放。大模型繼續在知識密集型任務上發揮優勢，小模型則在邏輯推理、實時應用、邊緣部署等場景大顯身手。兩者攜手，共同推動AI技術造福人類。

這個"小個子選手"的逆襲故事，讓我們看到了AI民主化的希望。不是只有科技巨頭才能玩轉AI，不是只有天文數字的投入才能做出好模型。只要有聰明的想法、紮實的技術和對問題的深刻洞察，即使資源有限，也能創造出令人驚嘆的成果。VibeThinker用實際行動告訴我們：在AI的世界裡，真正重要的不是"塊頭"有多大，而是"腦子"有多靈。

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：VibeThinker-1.5B會不會取代那些大型AI模型？

A：不會完全取代，但會在某些場景下成為更好的選擇。VibeThinker在邏輯推理和編程任務上表現優異，適合部署在手機、汽車等邊緣設備上，成本也低得多。但在需要廣博知識的任務上，大模型仍有優勢。未來可能是大小模型各司其職，而不是一方取代另一方。

Q2：普通人能用上VibeThinker嗎？

A：研究團隊已經在GitHub和HuggingFace上開源了VibeThinker的模型權重，技術人員可以免費下載使用。雖然目前還沒有面向普通用戶的應用產品，但隨著技術的推廣，未來很可能會有基於VibeThinker的消費級應用出現，比如智能學習助手、編程輔導工具等。

贊助商廣告

Q3：VibeThinker的訓練方法可以用在其他AI模型上嗎？

A：完全可以！研究團隊提出的"頻譜到信號原理"和MGPO方法是通用的訓練框架，不限於特定模型。其他研究者可以把這套方法應用到自己的模型上，可能也會取得類似的效果提升。這也是研究團隊開源模型和方法的初衷——推動整個AI社區的進步。