Layer 6 AI：訓練大模型時別讓它「跑偏」——一種更聰明的強化學習訓練穩定方案

這項由加拿大Layer 6 AI研究團隊完成的工作，以預印本形式發布於2026年6月，論文編號為arXiv:2606.16154，感興趣的讀者可通過該編號檢索完整原文。

贊助商廣告

---

一、模型訓練的"崩潰"困局

你有沒有見過一個本來學習成績不錯的學生，突然某天開始在考卷上亂寫一通——要麼寫滿了無意義的重複數字，要麼用中文夾雜日文夾雜阿拉伯文寫出一堆亂碼？這聽起來荒謬，但在當下最前沿的大語言模型訓練領域，這件事真實地發生著，而且發生得相當頻繁。

研究團隊在訓練過程中記錄到了兩種典型的"崩潰"模式。第一種叫"高熵崩潰"——模型的輸出開始散亂，內容開始出現各種語言混雜、代碼片段、亂碼符號等毫不相干的內容，好像大腦徹底亂掉了，什麼都往外亂吐。第二種叫"低熵崩潰"——模型走向了另一個極端，它的輸出變得極度單調，比如反覆輸出一長串零，或者陷入某個固定的模板循環，就像一個人太緊張，反而什麼都說不出來，只剩一句"答案是答案"在無限循環。

這兩種崩潰背後，其實是同一件事在作祟：強化學習訓練過程的不穩定性。這項研究想做的，就是搞清楚這種不穩定性究竟從哪裡來，並提出一種簡單、有效的解法。

---

二、強化學習訓練究竟是怎麼回事

在深入講解這項研究之前，需要先理解一下大語言模型訓練中的強化學習究竟在做什麼。

普通人最熟悉的語言模型訓練，是讓模型"看了大量文字之後預測下一個詞"，這叫預訓練。但為了讓模型真正"會做題"——比如解數學題、回答多步驟的問題——研究人員發明了一種叫做"帶有可驗證獎勵的強化學習"（簡稱RLVR）的方法。

可以把這個過程理解成這樣：給模型出一道數學題，它可以生成多種不同的解法。每種解法答對了就給獎勵，答錯了就扣分。模型通過反覆嘗試，逐漸學會往"更可能答對"的方向走。這聽起來很合理，實際上問題重重。

贊助商廣告

目前最主流的訓練方式叫做GRPO（群組相對策略優化）。它的核心邏輯是：對同一道題，讓"老版本的模型"先生成一批答案，然後根據這批答案的好壞給每個答案打一個相對分（叫做"優勢值"），再用這個分數來更新"新版本的模型"。這裡關鍵的問題是：老版本和新版本之間存在差距，用老版本生成的樣本來訓練新版本，就像用三年前的菜譜來指導今天的廚師——兩者的水平已經不一樣了。

為了控制這種"偏離"，研究人員引入了"重要性比率截斷"機制，簡單說就是：如果新舊模型在某個詞上的概率差距太大，就把這個詞的訓練信號截掉，不讓它參與更新。直覺上這似乎是個好主意——畢竟差距越大的地方越不可信，截掉它們不是很穩健嗎？

然而Layer 6 AI的研究團隊做了一個實驗，直接打臉了這個直覺。他們把截斷閾值調得越來越嚴，也就是把越來越多的"差距大"的詞截掉，結果發現：訓練崩潰了，而且崩潰得更徹底。截得越狠，反而越容易出問題。這說明，"與舊模型差距大"本身並不是崩潰的根本原因，問題一定出在別的地方。

---

三、一把手術刀：解剖每一個詞的梯度效果

研究團隊換了一個視角：不問"這個詞離舊模型有多遠"，而是問"更新這個詞，會讓模型在這個位置的概率分布怎麼變化"。

要理解這個思路，先要理解語言模型是怎麼"選詞"的。在每個生成步驟，模型面對整個詞彙表（可能有幾萬個詞），給每個詞打一個分，然後把這些分通過"軟最大值函數"（softmax）轉化成概率。比如在"我今天吃了___"這個位置，"飯"可能有30%的概率，"蘋果"可能有20%，"汽車"可能只有0.001%，如此類推。

現在，訓練的時候模型生成了某個詞（比如"蘋果"），我們根據這個詞是不是正確答案給一個獎勵信號，然後對模型參數做一個小小的調整（梯度更新）。問題來了：這個調整會怎麼影響下次遇到同樣位置時，各個詞的概率？

贊助商廣告

研究團隊推導出了一個數學公式（即論文中的方程1），揭示了一個出乎意料的規律。對於所有**沒被採樣到**的詞，它們的概率變化取決於三件事：這次採樣到的詞的概率、那個未採樣詞自己的概率、以及一個叫做C(p)的參考值。C(p)等於所有詞的概率的平方和，它像一個"標尺"，衡量當前概率分布有多集中或多分散。

用一個更直觀的說法：每個詞都有一個"地位"——如果它的概率高於C(p)這個閾值，就叫"峰值詞"（Peak）；如果低於這個閾值，就叫"谷值詞"（Valley）。同時，這次採樣到的那個詞的獎勵信號有正負之分——如果這次生成的答案比平均水平好，優勢值為正；如果比平均水平差，優勢值為負。

這樣一來，每一次對某個詞的訓練，實際上可以落入四個格子之一：正優勢+峰值詞（Pos-peak）、正優勢+谷值詞（Pos-valley）、負優勢+峰值詞（Neg-peak）、負優勢+谷值詞（Neg-valley）。

這四個格子對模型的影響截然不同，研究團隊通過理論推導和實驗分別驗證了每種情況下模型"混亂程度"（即熵）的變化趨勢。其中Pos-valley和Neg-peak這兩類更新會讓模型的分布變得更混亂、更隨機，是推向高熵崩潰的主要力量。Pos-peak的更新則會讓分布變得更集中、更確定，是穩定的。而Neg-valley的更新雖然短期內能降低混亂度，但在模型整體比較隨機（高熵）的時候，它反而會把分布過度壓縮，導致低熵崩潰。

這個發現非常關鍵：決定訓練是否崩潰的，不是某個詞"離舊模型有多遠"，而是"這個詞在當前模型眼中是峰值詞還是谷值詞，以及它攜帶的是正還是負的獎勵信號"。

---

四、實驗驗證：把四種訓練方式分開測試

為了驗證這個理論，研究團隊做了一組極為乾淨的實驗：他們用SmolLM3-3B這個模型在NuminaMath-LEAN數學數據集上訓練，每次只激活四個格子中的一個，觀察訓練走向哪裡。

結果完全符合理論預測。單獨只做Pos-peak訓練，模型非常穩定，熵持續下降，但成績快速到頂之後就不再進步了——因為模型只是在強化自己已經擅長的事情，不探索新路徑。單獨做Pos-valley或Neg-peak訓練，模型的熵迅速飆升，隨後生成內容開始崩潰，變成亂碼式的輸出。單獨做Neg-valley訓練，模型早期確實有所進步，因為它在過濾掉一些錯誤的低概率嘗試，但後來模型陷入過度自信，生成內容變得單調重複，出現低熵崩潰。

贊助商廣告

當研究團隊把這四個格子按"正/負優勢"或"峰值/谷值"兩兩組合測試時，結論進一步明朗化：正優勢（Pos）方向的訓練——也就是只對那些比平均水平好的答案進行強化——在穩定性和最終表現上是最均衡的，和主流基線方法DAPO的表現相當。換句話說，從安全性和有效性兩個角度看，"只強化贏家"是個簡單而有力的策略。

---

五、WAPO Layer6AI訓練大模型時別讓它跑偏一種更聰明的強化學習訓練穩定方案的提出：只從贏家身上學

基於上述發現，研究團隊提出了一個叫做"贏家優勢策略優化"（Winner Advantage Policy Optimization，簡稱WAPO）的方法。

它的核心思想極簡：在一批答案中，只對那些優勢值為正的答案（即比平均水平好的答案）進行策略梯度更新，那些比平均水平差的答案直接忽略，不對模型產生任何訓練信號。如果一道題的所有回答都是錯的（沒有任何"贏家"），這道題對本輪訓練不產生任何貢獻。

用一個直白的比喻：老師批改作業，只從做對的題目里總結經驗，做錯的題目不做任何處理。這和"把錯題講一遍"的常規教學方式截然不同，但在這個場景下卻更有效。

WAPO並不是簡單粗暴地"扔掉失敗案例"。它依然保留了GRPO家族方法的核心機制：重要性比率（用來修正新舊模型之間的差距）、截斷（避免單次更新幅度太大）、以及以組為單位的優勢歸一化（讓每道題內部的答案互相比較）。唯一的改變就是：把所有負優勢項的貢獻置零。

研究團隊還從理論上證明了WAPO的梯度方向是正確的。他們考慮一個簡化的"二元獎勵"場景（答對得1分，答錯得0分），推導出：WAPO的梯度更新方向和"直接最大化答對概率"的梯度方向是一致的，只是多了一個自適應的權重因子1-qx（其中qx是當前模型在這道題上的答對率）。這個權重因子有個很好的特性：當一道題的答對率已經很高時，權重自動縮小，模型不會在已經掌握的題目上浪費精力；當一道題很難時，權重較大，模型會把更多注意力放在這道題上。這是一種自然的"難題優先"機制。

贊助商廣告

與此同時，研究團隊還比較了WAPO和另外兩個只使用正樣本的方法。一個叫PSR，它不使用截斷機制也不用相對優勢歸一化，結果學習效率較低，成績很快遇到天花板。另一個叫RAFT++，它按每條答案的長度進行歸一化，結果模型學會了"寫短答案更省力"的策略，訓練到後期專門產出極短的模板化回答，比如"思考了一下，答案是3。答案：3"——這顯然是一種偷懶式的崩潰，雖然形式沒有亂，但學習質量極差。WAPO通過保留相對優勢歸一化和截斷，有效規避了這兩個問題。

---

六、大規模實驗：跨任務、跨模型的全面驗證

研究團隊在四個數據集和三個模型家族上做了系統實驗，覆蓋了數學推理和多步問答兩大類任務。

數學推理方面，他們選用了Math-500（一個包含500道標準數學題的評測集）和NuminaMath-LEAN（一個包含兩萬多道數學競賽題的大型數據集）。多步問答方面，他們選用了Hotpot-QA和OTT-QA（這兩個任務要求模型先在網上搜索相關資訊，再綜合推理給出答案，難度遠高於單輪問答）。三個被測試的模型分別是Qwen3-4B、SmolLM3-3B和Gemma3-4B，它們都是參數量在3到4億之間的中等規模語言模型。

對比的基線方法包括GRPO（標準版）、DAPO（改進了長度歸一化和截斷策略）、GSPO（用序列級別的比率替換了詞級別的比率）。每種基線方法都經過了針對各數據集的調參，確保比較公平。

實驗結果呈現了非常清晰的規律。在多步問答任務上，WAPO的優勢最為突出。在OTT-QA數據集上，WAPO相比次優的穩定基線，在Qwen3-4B模型上領先9.9個百分點，在Gemma3-4B上領先3.2個百分點。在Hotpot-QA上，WAPO分別領先4.5和10.6個百分點。DAPO在這些任務中頻繁崩潰——在Hotpot-QA的三個模型里有兩個崩潰，在OTT-QA的Qwen3-4B上甚至在100步內就徹底失敗，無法給出有效數字。GRPO和GSPO相對穩定，但往往在訓練中途就停止進步了，而WAPO能持續提升到最後。

贊助商廣告

在數學任務上，WAPO的表現與最強基線基本持平，只在訓練初期有時略慢（這正是前面提到的"難題優先"權重因子帶來的保守性——初期不急著在已經擅長的題目上猛追）。從最終訓練完成後的成績來看，WAPO能追上並與其他方法並駕齊驅。

研究團隊還額外測試了WAPO的"泛化能力"——把在Hotpot-QA上訓練好的模型拿去做2wiki問答（一個全新的多步問答數據集），以及把在NuminaMath-LEAN上訓練好的模型拿去做AIME'25（一個頂級數學競賽題集）。在2wiki測試中，WAPO在三個模型家族上全面領先其他方法，說明它學到的不是針對特定數據集的技巧，而是更通用的推理能力。在AIME'25上，WAPO與其他方法基本持平，這是個極高難度的任務，各方法整體差距不大。

此外，研究團隊還考察了一個容易被忽視的指標：pass@k，即在k次嘗試中至少答對一次的概率。這個指標衡量的是模型的"探索多樣性"——如果一個模型總是輸出同樣的內容，它的pass@k曲線會很快平坦。結果顯示，WAPO在pass@k方面的表現也優於或持平於其他基線，說明雖然WAPO只用正樣本訓練，但它並沒有變成一個只會走老路的僵化模型，仍然保持了良好的探索能力。

---

七、說到底，這項研究改變了什麼

歸根結底，這項研究做了一件看起來簡單、卻頗具價值的事：它不再把訓練不穩定的原因歸咎於"模型跑偏了太遠"這個模糊的說法，而是深入到每一個詞的訓練信號層面，搞清楚了"哪類更新有害、哪類有益"。這就好比醫生不滿足於診斷"身體不好"，而是精確指出"是這兩根神經的信號傳導出了問題"。

這種分析視角帶來了一個極簡的解法：WAPO。它只做了一件事——把負優勢的更新從訓練中去掉——卻在多個任務和模型上顯著提升了訓練穩定性，尤其是在那些困難的多步推理任務上。

對於普通用戶而言，這項研究意味著未來的AI助手在學習新能力時，更不容易"走火入魔"輸出亂碼或陷入循環，整個訓練過程能更可控、更穩定地推進，最終到達更好的效果。研究團隊已將完整代碼開源，有興趣的開發者可通過論文提供的GitHub地址自行驗證。

贊助商廣告

對於研究者來說，這項工作也提出了一些值得繼續深入的方向：負優勢樣本中是否也有部分是有價值的，只是目前難以從粗粒度獎勵信號中區分？這個分析框架能否擴展到更大規模的模型或更複雜的任務（比如編程、文字轉SQL）？如果能更精細地識別和利用負樣本中的有效信號，訓練效率是否能進一步提升？

如果你對這些問題感到好奇，值得讀一讀原文，編號arXiv:2606.16154，所有理論推導和實驗細節都在那裡等著你。

---

Q&A

Q1：WAPO方法和普通GRPO訓練方式有什麼本質區別？

A：GRPO在訓練時，不管一條答案是好是壞，都會讓它影響模型參數的更新——答得好的被強化，答得差的被抑制。WAPO的區別在於，它完全忽略那些答得比平均水平差的答案，只從答得比較好的答案中提取經驗。用來更新模型的機制（截斷、重要性比率、相對優勢歸一化）完全保留，唯一的改動就是把負優勢的貢獻置零。

Q2：為什麼截斷更多"離舊模型很遠的詞"反而會導致崩潰？

A：研究發現，截斷閾值越嚴，受影響最大的是那些本來概率就很低的詞。而這些低概率詞在負優勢更新中，本來是"降低混亂度"的力量（Neg-valley類型）。如果把它們的更新信號也截斷，剩下的訓練信號里熵增效應（來自Neg-peak和Pos-valley類型的更新）就相對更占主導，結果反而讓模型越訓越亂，加速崩潰。

Q3：WAPO在數學任務上為什麼有時比GRPO或GSPO慢一些？

A：WAPO使用了一個自適應權重因子，當一道題的答對率已經比較高時，會自動減小更新力度。這意味著在訓練初期，對相對容易的題目，WAPO的學習步伐會比較保守，看起來追得慢。但這種保守在後期會帶來好處——模型不會因為在簡單題上過度強化而損失在難題上的探索能力，最終成績能追上並與其他方法持平甚至在困難任務上超越。