
這是一個關於"小個子選手"在AI競技場上戰勝"巨人"的精彩故事。2025年11月,來自新浪微博公司的研究團隊發表了一篇技術報告,介紹了他們開發的VibeThinker-1.5B模型。這篇論文發布在arXiv預印本平台上,引起了AI研究界的廣泛關注。
一個只有15億參數的小模型,竟然在多項複雜的數學和編程測試中擊敗了擁有6710億參數的DeepSeek
R1模型,後者的體積是前者的400多倍!更令人驚訝的是,訓練這個小模型的總成本只有7800美元,而那些大模型的訓練成本動輒數十萬美元。
長期以來,AI界有一個被廣泛接受的共識:想要讓模型變得更聰明,就必須把它做得更大。就像蓋房子一樣,想要房子更豪華,就得用更多的材料、更大的空間。按照這個邏輯,那些擁有數千億參數的超大模型理應在各種任務上碾壓小模型。但VibeThinker的出現打破了這個認知,它證明了通過精巧的訓練方法,小模型也能擁有媲美甚至超越大模型的推理能力。
這個發現意味著它大幅降低了AI研究和應用的門檻。如果小模型就能解決問題,那麼普通大學、中小企業甚至個人開發者都有機會參與到AI創新中來,而不是只有谷歌、OpenAI這樣的科技巨頭才能玩得起。其次,小模型的推理速度更快、能耗更低,可以部署在手機、汽車這樣的邊緣設備上,讓AI真正走進千家萬戶。最後,這項研究挑戰了"大即是好"的簡單粗暴思維,提醒我們:有時候,聰明的方法比蠻力更重要。
研究團隊的核心創新在於提出了一個叫做"頻譜到信號原理"(Spectrum-to-Signal Principle,簡稱SSP)的訓練框架。這個聽起來有點學術的名字,其實可以用一個簡單的比喻來理解。想像你正在調試一台收音機:第一步是旋轉旋鈕,讓收音機接收到儘可能多的頻段信號,這就像是"頻譜階段",目標是增加多樣性;第二步是鎖定清晰度最好、內容最有價值的那個頻道,這就是"信號階段",目標是找到最佳答案。傳統的訓練方法往往只關注第二步,而VibeThinker創新性地強調了第一步的重要性:只有先擁有豐富的"頻譜",才能找到最強的"信號"。
現在讓我們深入探討VibeThinker是如何做到這一切的。
核心訓練理念:為什麼多樣性比單一正確答案更重要?
傳統的AI訓練方法有點像應試教育:給模型一道題,告訴它標準答案,然後讓它反覆練習直到每次都能答對。這種方法的問題在於,模型可能只學會了一種解題套路,遇到稍微不同的題目就懵了。VibeThinker的訓練理念完全不同,它更像是質素教育:鼓勵模型探索多種解題思路,即使這些思路一開始不那麼完美。

用一個烹飪的比喻來解釋這個理念會更清楚。假設你想學做一道菜,比如宮保雞丁。傳統方法就是給你一個標準菜譜,讓你嚴格按照步驟操作,每次都追求做出和範例一模一樣的味道。而VibeThinker的方法是:第一步,嘗試各種不同的做法,有的人多放辣椒,有的人多放花生,有的人用雞胸肉,有的人用雞腿肉;第二步,品嘗所有這些不同版本,找出最好吃的幾種,然後總結它們的共同特點和成功要素。通過這個過程,你不僅學會了做宮保雞丁的標準方法,還理解了這道菜的核心原理,以後碰到類似的菜也能舉一反三。
研究團隊把這個理念總結為"頻譜到信號原理"。在第一階段(監督微調),他們不追求模型的單次答題準確率(Pass@1),而是優化一個叫Pass@K的指標。這個指標的意思是:給模型一道題,讓它生成K個不同的答案,只要這K個答案中至少有一個是對的,就算成功。這樣做的好處是,模型學會了從多個角度思考問題,建立起了一個豐富的"解題方案庫"。在第二階段(強化學習),模型就可以從這個方案庫中篩選和強化那些真正有效的方法。
為什麼這種方法對小模型特別重要?因為小模型的參數少,"腦容量"有限,必須用最高效的方式學習。如果只是死記硬背標準答案,小模型很快就會"腦子裝滿",無法應對新問題。但如果讓它學會了多樣化的思考方式,它就能用有限的參數做更多的事情。這就像是一個人雖然記憶力不如別人,但思維靈活、善於舉一反三,照樣能在考試中取得好成績。
兩階段多樣性探索蒸餾:如何教會模型多角度思考?
VibeThinker訓練的第一階段叫做"兩階段多樣性探索蒸餾",聽起來很複雜,但用一個簡單的比喻就能說清楚。想像你是一位武俠小說里的掌門,要培養一個弟子成為絕世高手。你手下有四位師傅,分別精通劍法、刀法、拳法和掌法。你的目標是讓弟子學會各家之長,成為一個全能型選手。你會怎麼做?
第一步,你讓弟子分別跟四位師傅學習,每個師傅只教自己最擅長的那一套。這就是"領域感知多樣性探測"階段。研究團隊把數學問題分成了四個子領域:代數、幾何、微積分和統計。對於每個子領域,他們讓模型在訓練過程中定期停下來接受測試,看看它在生成多樣化答案方面的表現如何。每個子領域都會找出一個"最擅長生成多樣化答案"的模型版本,就像是找出了四位"專家"。
第二步,你讓弟子把四位師傅教的東西融會貫通,形成自己獨特的武功體系。這就是"專家模型融合"階段。研究團隊把四個專家模型的參數進行了線性融合,簡單說就是把它們的"技能"平均混合在一起。最終得到的模型既會代數的多種解法,也會幾何的多種思路,還懂微積分和統計的各種技巧。這個融合後的模型就成了第一階段的輸出,它的特點是"知識面廣、思路靈活"。
有趣的是,研究團隊發現,這個經過多樣性優化的模型不僅Pass@K指標高(意味著它能生成很多正確答案),Pass@1指標也不低(意味著它單次答題的準確率也不差)。這說明多樣性和準確性並不矛盾,反而是相輔相成的。就像一個真正的武林高手,不僅招式多變,每一招的威力也不弱。
這種訓練方法還有一個額外的好處:它能幫助研究團隊發現模型的薄弱環節。如果某個子領域的多樣性表現一直不好,說明模型在這個領域的理解還不夠深入,需要針對性地加強訓練。這就像是找到了學生的"偏科"問題,然後有針對性地輔導。
最大熵引導策略優化:如何讓模型學會挑選最佳答案?
經過第一階段的訓練,模型已經學會了生成多樣化的答案,但還不太會判斷哪個答案最好。這就像是一個廚師學會了做菜的各種技巧,但還不太確定哪種做法能讓顧客最滿意。第二階段的訓練就是要解決這個問題,研究團隊使用的方法叫做MGPO(最大熵引導策略優化)。
要理解MGPO,我們先來玩一個猜硬幣的遊戲。我手裡有一枚硬幣,多次拋擲後,你需要猜測它是正面朝上還是反面朝上。如果我告訴你"這枚硬幣100次拋擲中有100次都是正面",你會很有把握地猜"正面",因為這個硬幣的行為非常確定。如果我告訴你"100次中有50次正面,50次反面",你就完全沒把握了,因為這個硬幣的行為充滿了不確定性。在資訊論中,我們用"熵"這個概念來衡量不確定性,50-50的情況就是"最大熵"狀態。
MGPO的核心思想是:那些讓模型處於"最大熵"狀態的題目,也就是模型"拿不準"的題目,才是最有訓練價值的。想想看,如果一道題模型已經能100%答對了,反覆訓練它也學不到什麼新東西;如果一道題模型怎麼都答不對,可能是因為這道題超出了它的能力範圍,訓練效果也不好。只有那些模型"半懂不懂"的題目,有時能答對,有時答不對,才是最好的學習材料,因為這些題目正好處在模型能力的邊界上,稍加訓練就能有突破。
具體操作是這樣的:研究團隊讓模型對每道題生成多個答案,然後計算正確答案的比例。如果這個比例接近50%,說明模型對這道題的把握度正好在"不確定"的狀態,就給這道題更高的訓練權重;如果比例接近0%或100%,說明模型要麼完全不懂,要麼已經完全掌握,就降低訓練權重。這種動態調整訓練重點的方法,讓模型總是在最需要提升的地方下功夫。
用學習的比喻來說,MGPO就像是一個智能的私人教師。它會根據學生的表現動態調整教學內容:學生已經掌握的知識就少講,學生完全不懂的知識就暫時放一放,重點講那些學生"似懂非懂"的內容。這樣的教學效率最高,學生進步最快。
研究團隊還做了一個巧妙的設計:在MGPO訓練中,他們特別獎勵那些"低概率但正確"的答案。什麼意思呢?假設模型對一道題生成了十個答案,其中九個是錯的,只有一個是對的,而且這個對的答案非常罕見。MGPO會特別強化這個罕見答案的生成概率,因為它代表了模型"靈光一現"的正確思路。通過不斷強化這些"靈光一現"的時刻,模型就能逐漸提高在困難問題上的表現。這有點像是培養創新思維:不是讓人總是按部就班地解題,而是鼓勵那些偶爾出現的、非常規但有效的解題思路。
整個第二階段的訓練分成了三個小步驟。首先是在16K上下文長度(可以理解為題目的複雜程度)下進行數學推理訓練;然後擴展到32K上下文長度,處理更複雜的數學問題;最後是編程任務的訓練。這種循序漸進的方式,確保了模型在每個階段都能充分吸收知識,不會因為難度跳躍太大而"消化不良"。
數據處理與成本控制:如何用有限資源達到最佳效果?
VibeThinker的成功不僅在於訓練方法的巧妙,還在於對數據的精心處理和對成本的嚴格控制。這兩個方面往往被忽視,但對於小模型來說卻至關重要。
首先是數據去污染問題。什麼是數據污染?想像你在準備考試,考試題目恰好是你平時練習過的原題,那你考高分就不稀奇了,因為這不能真實反映你的能力。AI模型也一樣,如果訓練數據中混入了測試題目的答案,模型在測試時的好成績就是虛假的。研究團隊非常重視這個問題,他們使用了一種叫"10-gram匹配"的技術來識別和剔除可能與測試集重複的訓練數據。這個技術的原理是:把文本分成每10個詞一組的片段,如果訓練數據中有片段和測試數據高度相似,就認為存在污染風險,將其刪除。
這裡有一個有趣的爭議。有研究者質疑說,某些模型(比如VibeThinker的基礎模型Qwen2.5-Math-1.5B)可能本身就存在數據污染,所以才能在某些測試上表現不錯。但研究團隊用兩個事實反駁了這種質疑。第一,基礎模型在AIME24、AIME25這些測試上的得分非常低(分別只有6.7和4.3分),如果真的存在數據污染,不應該這麼差。第二,VibeThinker在2025年才發布的全新測試集(如AIME25和HMMT25)上表現優異,而這些測試集的題目不可能在2024年發布的基礎模型訓練數據中出現。這就像是一個學生在舊版教材的題目上做得不好,但在全新出版的試卷上反而考得很好,顯然不是因為提前知道了答案,而是真正學會了知識。

其次是成本控制。訓練一個AI模型就像建造一座大樓,需要大量的計算資源。VibeThinker的訓練總共用了3900個GPU小時,使用的是NVIDIA H800這種高性能顯卡。按照市場價格每GPU小時2美元計算,總成本不到8000美元。相比之下,DeepSeek R1的訓練成本是29.4萬美元,MiniMax-M1的成本更是高達53.5萬美元。VibeThinker的成本只有它們的三十分之一到六十分之一。這種巨大的成本差異,主要來自於模型規模的差異,小模型需要的計算資源少得多。
但便宜不意味著偷工減料。研究團隊在有限的預算內做到了精打細算。他們使用的訓練數據大部分來自公開數據集,只有小部分是自己合成的專業數據。這就像是做菜時,大部分食材從市場買,只有關鍵調料自己特製。這種"開源為主、自研為輔"的策略,既保證了數據質量,又大幅降低了數據準備的成本。
最後值得一提的是推理成本。訓練只是一次性投入,而推理(也就是實際使用模型)是持續性的開銷。小模型的推理速度快、能耗低,可以部署在手機、汽車等邊緣設備上,不需要連接雲端伺服器。研究團隊估算,VibeThinker的推理成本是那些大模型的二十分之一到七十分之一。這意味著,如果一個應用服務每天要處理一百萬次查詢,使用VibeThinker可以節省數萬美元的運營成本。
測試結果:小個子選手如何在各項競賽中嶄露頭角?
說了這麼多訓練方法,最關鍵的問題來了:VibeThinker的實際表現到底如何?研究團隊在多個極具挑戰性的測試集上進行了評估,結果令人印象深刻。

我們先來看數學測試。AIME(美國數學邀請賽)是一項面向高中生的高難度數學競賽,只有在AMC(美國數學競賽)中得分最高的學生才有資格參加。AIME的題目涵蓋代數、幾何、數論等多個領域,需要深入的數學理解和巧妙的解題技巧。在AIME 2024測試中,VibeThinker的得分是80.3分(滿分150分),超過了DeepSeek R1的79.8分。要知道,DeepSeek R1是一個6710億參數的巨型模型,體積是VibeThinker的447倍!在AIME 2025測試中,VibeThinker得分74.4分,比DeepSeek R1的70.0分高出4.4分。這就像是一個體重50公斤的拳擊手擊敗了一個200公斤的對手。
更有說服力的是HMMT(哈佛麻省理工數學錦標賽)2025的結果。HMMT是全球頂尖的高中數學競賽之一,難度極高。VibeThinker在這項測試中得分50.4分,而DeepSeek R1隻有41.7分。這個差距已經不是"險勝",而是"明顯優勢"了。研究團隊還對比了其他一些大模型的表現,比如Phi-4 Reasoning(147億參數)得分43.8,Magistral Small(240億參數)得分43.5,都不如VibeThinker。這充分說明,在邏輯推理任務上,模型的"智商"不完全取決於"體重"。
在編程測試上,VibeThinker也表現不俗。LiveCodeBench是一個評估AI編程能力的基準測試,題目來自實際的編程競賽網站,包括算法設計、代碼實現、調試等多個方面。在LiveCodeBench V6測試中,VibeThinker得分51.1分,略微超過了商業模型Magistral Medium的50.3分。考慮到VibeThinker的基礎模型在編程任務上完全不行(得分0分),這個提升可以說是質的飛躍。這就像是一個從來沒學過編程的人,通過系統訓練成為了合格的程序員。
不過,研究團隊也坦誠地指出了VibeThinker的局限性。在GPQA(研究生級別問答)測試中,VibeThinker的得分只有46.7分,而那些大模型的得分普遍在70-80分之間。GPQA的題目涉及物理、化學、生物等多個領域的專業知識,需要模型擁有廣博的知識儲備。在這種任務上,小模型的劣勢就顯現出來了,它的"腦容量"有限,無法記住所有領域的所有知識。這就像是讓一個小背包和一個大行李箱比誰裝的東西多,小背包肯定是比不過的。
但即便如此,VibeThinker在GPQA上的表現也超過了它的基礎模型(16.4分),提升了30多分。這說明通過精心的訓練,即使是小模型也能在知識密集型任務上有所進步。研究團隊呼籲學界重視提升小模型的通用知識能力,因為這是小模型真正走向實用化的關鍵瓶頸。

從成本效益的角度來看,VibeThinker的性價比簡直爆表。它用不到8000美元的訓練成本,達到了那些花費數十萬美元訓練的大模型的水平。如果把訓練成本和性能畫成一張圖,VibeThinker無疑是位於"高性價比"區域的明星選手。這種效率優勢,對於預算有限的研究團隊和企業來說,具有巨大的吸引力。
技術細節:給開發者的一些啟示
VibeThinker的成功不是偶然的,它背後有許多值得學習的技術細節。這些細節雖然專業,但我們可以用通俗的方式理解它們的價值。
首先是模型融合技術。在第一階段訓練中,研究團隊得到了四個專家模型,分別擅長不同的數學子領域。如何把它們合併成一個統一的模型呢?最簡單的方法是"平均融合",就是把四個模型的參數直接平均。研究團隊採用的就是這種方法,每個專家模型占25%的權重。這種方法簡單有效,就像是做果汁時把四種水果等量混合,既保留了每種水果的味道,又創造了一種全新的口感。
其次是採樣策略。在測試時,VibeThinker對每道題會生成多個答案,然後從中選擇最好的一個。這個過程用到了一種叫"核採樣"(nucleus sampling)的技術,參數top_p設置為0.95。這個技術的原理是:模型生成每個詞時,不是簡單地選擇概率最高的詞,而是從概率累計達到95%的詞中隨機選擇。這樣做的好處是,既保證了生成內容的合理性,又引入了一定的隨機性,避免答案過於死板。數學任務的採樣溫度設為1.0,編程任務設為0.6,溫度越高,隨機性越大,創造性越強;溫度越低,答案越確定,穩定性越好。
再次是多階段訓練策略。VibeThinker的訓練不是一蹴而就的,而是分成了多個階段:先做16K上下文的數學訓練,再做32K上下文的數學訓練,最後做編程訓練。這種循序漸進的方式,確保了模型在每個階段都能充分學習,不會因為任務突然變難而"學不會"。這就像是健身時先做輕重量訓練,再逐漸加重,最後挑戰大重量,而不是一上來就舉最重的槓鈴。
最後是評估方法。研究團隊在評估時採用了Pass@K的方法,具體來說就是讓模型對每道題生成K個答案,只要其中有一個正確就算通過。數學任務K設為64,編程任務K設為8。為什麼不同任務的K值不一樣?因為數學題往往有多種解法,生成64個答案能更好地展現模型的多樣性;而編程題的正確答案相對唯一,生成8個就足夠了。這種靈活的評估方法,既全面又高效。
這些技術細節看似瑣碎,但正是它們的精妙配合,才成就了VibeThinker的優異表現。對於AI開發者來說,這些經驗都是寶貴的參考。
VibeThinker的故事告訴我們:在AI的世界裡,"大"不一定等於"強"。通過精巧的訓練方法、合理的資源分配和對問題本質的深刻理解,小模型也能擁有媲美甚至超越大模型的能力。這不僅是技術上的突破,更是理念上的創新,它提醒我們,不要迷信規模,而要追求效率;不要依賴蠻力,而要發揮巧勁。
當然,VibeThinker也並非完美無缺。它在通用知識任務上的表現仍然落後於大模型,這說明小模型還有很長的路要走。但這項研究已經證明,小模型的潛力遠比我們想像的大。未來的AI發展,可能不再是一味追求"更大更強",而是在"大小結合、各展所長"的方向上百花齊放。大模型繼續在知識密集型任務上發揮優勢,小模型則在邏輯推理、實時應用、邊緣部署等場景大顯身手。兩者攜手,共同推動AI技術造福人類。
這個"小個子選手"的逆襲故事,讓我們看到了AI民主化的希望。不是只有科技巨頭才能玩轉AI,不是只有天文數字的投入才能做出好模型。只要有聰明的想法、紮實的技術和對問題的深刻洞察,即使資源有限,也能創造出令人驚嘆的成果。VibeThinker用實際行動告訴我們:在AI的世界裡,真正重要的不是"塊頭"有多大,而是"腦子"有多靈。
END
Q&A
Q1:VibeThinker-1.5B會不會取代那些大型AI模型?
A:不會完全取代,但會在某些場景下成為更好的選擇。VibeThinker在邏輯推理和編程任務上表現優異,適合部署在手機、汽車等邊緣設備上,成本也低得多。但在需要廣博知識的任務上,大模型仍有優勢。未來可能是大小模型各司其職,而不是一方取代另一方。
Q2:普通人能用上VibeThinker嗎?
A:研究團隊已經在GitHub和HuggingFace上開源了VibeThinker的模型權重,技術人員可以免費下載使用。雖然目前還沒有面向普通用戶的應用產品,但隨著技術的推廣,未來很可能會有基於VibeThinker的消費級應用出現,比如智能學習助手、編程輔導工具等。
Q3:VibeThinker的訓練方法可以用在其他AI模型上嗎?
A:完全可以!研究團隊提出的"頻譜到信號原理"和MGPO方法是通用的訓練框架,不限於特定模型。其他研究者可以把這套方法應用到自己的模型上,可能也會取得類似的效果提升。這也是研究團隊開源模型和方法的初衷——推動整個AI社區的進步。






