騰訊混元、新加坡國立大學聯合出手：讓AI學習更「穩」的秘訣，原來藏在這道「調音旋鈕」里

這項由騰訊混元與新加坡國立大學、美國伊利諾伊大學厄巴納-香檳分校聯合完成的研究，以預印本形式發布於2026年6月8日，論文編號為arXiv:2606.09821，題為《Rethinking the Divergence Regularization in LLM RL》（重新思考大型語言模型強化學習中的散度正則化）。

贊助商廣告

你有沒有想過，當你跟ChatGPT或者其他AI助手對話時，它是怎麼變得越來越"聰明"的？背後有一個關鍵的訓練環節，叫做"強化學習"——簡單說就是讓AI不斷嘗試、犯錯、被糾正，就像一個學生在老師的指導下反覆練習，逐漸掌握某種技能。但這個過程中有一個讓所有AI研究者頭疼的問題：訓練過程極其不穩定，AI有時候會"走偏"，一會兒進步神速，一會兒又突然崩潰退步。這篇論文的核心貢獻，就是提出了一種名為DRPO 騰訊混元新加坡國立大學聯合出手讓AI學習更穩的秘訣原來藏在這道調音旋鈕里（散度正則化策略優化）的新方法，讓AI的訓練過程更加穩定、高效，而且在多種模型規模和硬體精度設置下都表現優越。

一、為什麼AI訓練會"翻車"？——先聊聊"駕校教練"的困境

要理解這項研究解決的問題，先想像這樣一個場景：一位駕校教練正在培訓學員開車。教練的策略是，每次學員做了好動作就給獎勵，做了危險動作就扣分。但有一個麻煩——教練每次觀察學員操作，記錄下來，然後要回去研究這些記錄好幾遍，才對學員提出改進建議。問題來了：在教練研究記錄的這段時間裡，學員已經又開了好多圈車，技術水平早就不是當初記錄時的狀態了。教練基於"過時的記錄"給出的建議，有時候反而會幫倒忙。

這就是AI強化學習中所謂的"離線策略"問題。AI生成回答（就像學員開車）的模組和實際被訓練改進的模組，在工程實現上存在細微差異；加上為了提高訓練效率，研究人員通常會把一批生成的數據分成好幾小份，反覆用來更新AI參數。結果是，被更新的AI模型和當初生成這批數據的AI模型，已經不完全是同一個"版本"了。

贊助商廣告

這種不一致如果不加以控制，AI可能會被誤導——它以為某些回答策略很好，拼命強化，結果越走越偏，訓練崩潰。為了解決這個問題，研究者們提出了"信任域"的概念：在每次更新時，不允許AI偏離原來的版本太遠，就像給駕校學員規定"每次練習只能在上次基礎上微調，不能突然換一套完全不同的開車方式"。

目前最主流的方法叫PPO（近端策略優化），它的做法是給AI的每一步更新設置一個"比率限制"——新版AI做某個決策的概率，除以舊版AI做同一決策的概率，這個比值不能超出某個範圍（比如不能超過1.28倍或者低於0.8倍）。一旦超出，就直接把這個更新的梯度砍掉，當作沒發生。這就像是駕校教練規定："你的方向盤轉動幅度不能超過上次的1.28倍，超了就不算數。"

然而，這種方法有一個深層缺陷，而這正是論文團隊要攻克的核心問題。

二、"比率限制"為什麼靠不住？——低概率詞彙的"放大鏡效應"

AI語言模型工作的基礎，是對詞彙表中每一個詞（或者叫"詞元"）分配一個概率。常見詞比如"的"、"是"可能有很高的概率，而專業術語或罕見詞的概率可能極低，比如只有0.001%。

這裡就出現了PPO比率方法的致命弱點。假設AI對某個罕見詞的概率從0.001%增加到了0.1%，概率絕對值只增加了0.099個百分點，這個變化對整個輸出分布的影響微乎其微，可以忽略不計。但是，如果用比率來衡量，這個比率是100倍！PPO會認為這是一次"天大的變化"，果斷切斷梯度，阻止這次更新——即使這次更新實際上對AI的行為幾乎沒有影響。

反過來，假設某個常見詞的概率從95%降到了80%，概率絕對值減少了15個百分點，這對AI的實際行為影響非常大。但是用比率來看，只有0.84倍，在PPO允許的範圍之內，於是這次更新順利通過了——即使它對AI的決策方式影響深遠。

換一個更形象的比喻：這就像用"百分比漲幅"來控制股市風險，規定漲幅超過20%就停牌。一隻價值0.01元的垃圾股從0.01元漲到0.012元，漲幅20%停牌；而一隻價值100元的績優股從100元跌到80元，跌幅20%，剛好卡線，還能繼續交易。明顯的，這個規則對"便宜股"太苛刻，對"貴价股"又太寬鬆，根本沒有有效反映真實的市場風險。

贊助商廣告

為了解決這個問題，此前有一項名為DPPO（散度近端策略優化）的工作，改用"絕對概率變化"來衡量每個詞元的變化幅度：直接看新舊版AI對同一個詞的概率差了多少，而不是比率。這樣，罕見詞再怎麼按比率增長，絕對概率變化很小，不會被過度限制；而高概率詞如果大幅變化，才會觸發限制。這是一大進步。

但DPPO還有自己的問題：它依然用的是"硬性開關"——一旦某個詞的概率變化超過了閾值，就直接把這個詞的梯度歸零，完全不理它。就像水龍頭，要麼全開要麼全關，沒有中間狀態。這種突然的"一刀切"會讓訓練過程出現不穩定的抖動，而且一旦某個詞已經"越界"了，DPPO既不會推它回來，也不會繼續教它——它就被徹底忽略了。

三、DRPO的核心思想：把"開關"換成"旋鈕"

這項研究的核心貢獻，就是把DPPO的"硬性開關"替換成了一個"平滑旋鈕"。

繼續用駕校的比喻：PPO的做法是"如果你的方向盤角度變化比率超標，這次操作不算"；DPPO改進為"如果你方向盤的實際角度偏移超過了某個絕對值，這次操作不算"；而DRPO的做法是"方向盤偏移越接近限制值，我給你的操作分數打折越多；超過限制值之後，我不僅打折，還會主動給你反饋讓你往回調"。這是一個連續的、漸進的過程，而不是突然的開關。

技術上，DRPO的做法是在原有的目標函數中，加入一個"平方懲罰項"。這個懲罰項的作用，是在AI對某個詞的概率變化越大時，給這次更新打越大的"折扣"。當概率變化超過閾值時，折扣變成負數，也就是說更新方向反轉了——原本要推概率往某個方向走，現在變成把概率往回拉。

數學上，DRPO的目標函數可以表達為：對每個詞元，用概率比率乘以優勢值（衡量這次回答有多好），減去一個懲罰項。懲罰項的核心是"行為策略的概率乘以概率比率與1之差的平方，再除以兩倍閾值"，並且整個懲罰項還要乘以優勢值的絕對值。正是這個行為策略概率的乘法因子，把原來SPO方法的"χ?散度"（卡方散度）約束，轉變成了"l?散度"（絕對概率平方距離）約束，恰好對應DPPO想要的"絕對概率變化"信任域邊界。

贊助商廣告

由此產生的梯度權重，是一個隨概率變化幅度和方向連續變化的量。具體來說，當某次更新是在"推離"行為策略時，權重從1開始，隨著絕對概率變化增大而線性下降，在恰好到達信任域邊界時降為0，越過邊界後變為負值——這就是"糾正信號"。當某次更新是在"回歸"行為策略時，權重則大於1，意味著"往回走"的更新會被額外鼓勵和放大。

整個權重被限制在一個有界範圍內。之所以強調"有界"，是因為大型語言模型有著龐大的詞彙表，其中大量罕見詞（概率極低）在訓練中被採樣到時，SPO方法的比率權重可能會在這些詞上變得極其巨大，造成梯度爆炸，訓練崩潰。DRPO用的是絕對概率變化，概率差值永遠在0到1之間，因此權重永遠是有界的，不會出現這種失控情況。論文中展示了來自Qwen3-30B-A3B-Base模型的實際採樣數據：概率低於0.01的詞元占總採樣量的7.8%，這個比例相當可觀，足以說明忽視"低概率尾部"的方法在實際訓練中面臨真實風險。

四、與其他方法的對比：同樣是"旋鈕"，為什麼別人的不好用？

研究團隊還系統分析了其他幾種看起來類似的方法，解釋為什麼它們都不如DRPO。

先說SPO（簡單策略優化）。SPO也用了平滑的二次方懲罰，但它的懲罰項里沒有乘以行為策略概率這個因子。結果是它的梯度權重取決於概率比率，而不是絕對概率變化。對於低概率詞，比率可以極大，導致梯度權重可以趨向無窮大，訓練不穩定。

再說基於KL散度的懲罰方法。KL散度是一種常用的衡量兩個概率分布差異的指標。但論文團隊推導證明，當對單個採樣詞元使用KL懲罰並通過重要性採樣展開梯度後，梯度權重仍然是比率的函數，而非絕對概率差的函數。對於正優勢詞元，KL懲罰甚至根本不產生有限的"停止點"——它的梯度權重永遠為正，理論上不會阻止AI對正優勢詞的概率無限增大。對於負優勢詞元，停止點依賴於行為概率的倒數，同樣存在低概率詞放大的問題。

贊助商廣告

還有一種用TV散度（全變分散度）的懲罰。TV懲罰的採樣梯度只取決於方向（更新是在推離還是回歸行為策略），而不取決於偏移量的大小。這意味著不管當前已經偏離多遠，懲罰力度都是一樣的——沒有"越靠近邊界越溫柔，越遠離邊界越用力拉"的效果，變成了另一種形式的"開關"。

以上分析的核心結論是：一個正則化項在損失函數層面看起來多麼合理，都不如看它的梯度對每個詞元施加了什麼形狀的權重。名字叫"TV散度"不等於梯度行為符合TV幾何；名字叫"KL散度"不等於不會產生比率爆炸問題。DRPO之所以有效，根本原因在於它的梯度權重連續、有界，且隨絕對概率變化平滑變化，與"絕對概率偏移不超過閾值"這一信任域形狀精確對應。

另外，論文還特別強調了"優勢值絕對值加權"這一設計的重要性。DRPO的懲罰項乘以了優勢值的絕對值，這看起來像是一個不純粹的做法——純散度懲罰不應該跟獎勵信號掛鉤。但實驗結果一再表明，去掉這個因子會導致訓練不穩定甚至崩潰。理由在於：優勢值同時也是策略梯度的"力度係數"，如果不對懲罰項做同樣的縮放，懲罰強度在不同優勢大小的詞元上就失去了相對一致性，信任域邊界實際上會隨每個詞的優勢值浮動，導致不同詞受到完全不同的約束力度，整個訓練過程因此變得混亂。

五、實驗結果：在多種真實場景下都更穩、更好

研究團隊在多個不同的模型和設置上驗證了DRPO的效果，選用的都是業界公認的強基線模型，測試的任務是數學推理，評估指標是AIME 2024和AIME 2025（美國數學邀請賽）的平均準確率。

參與實驗的模型包括Qwen3-4B-Base（一個相對較小的模型）、Qwen3-30B-A3B-Base（中等規模的混合專家架構模型）、Qwen3.5-35B-A3B-Base（更大的混合專家模型），以及DeepSeek-R1-Distill-Qwen-1.5B（一個已經經過推理蒸餾的小模型）。訓練數據來自DAPO數據集的過濾子集，約13000道數學題，以及一個包含1460道可解問題的小型測試集。為了測試在更困難條件下的表現，研究團隊還專門針對Qwen3-30B-A3B-Base運行了FP8單精度推理（相當於計算時用更省內存但精度稍低的數值格式進行推理）和FP8端到端（訓練和推理都用FP8）兩個額外設置。FP8精度設置下訓練-推理數值差異更大，更容易暴露各方法的穩定性問題。

贊助商廣告

對比的基線方法包括：無任何信任域限制的原始代理梯度、GRPO（帶Clip-Higher技巧）、SPO、DPPO，以及DRPO。

實驗結果在六個設置中高度一致：以比率為基礎的方法（GRPO和SPO）在低精度設置下最容易崩潰，即便在正常精度下，它們的訓練效率和最終準確率也普遍落後於散度型方法。DPPO（散度型硬掩碼方法）雖然能穩定訓練，但收斂速度偏慢，最終準確率通常低於DRPO。無任何約束的方法在某些設置下表現出色，但可靠性差，在Qwen3-4B-Base的實驗中準確率從0.25驟降至0.17，說明信任域約束確實不可或缺。DRPO在六個設置中全部表現最優或者與最優持平，且訓練曲線最平穩。

消融實驗進一步揭示了各個設計選擇的貢獻。優勢值絕對值加權的重要性通過去掉這個因子的對比實驗得到驗證：無論對SPO還是DRPO，去掉這個因子都會讓性能顯著下降並引入不穩定性。替代散度（KL、TV）的劣勢通過直接替換實驗得到驗證：即便KL懲罰經過精心的超參數調整，在全部六個設置上也無法追上DRPO。

此外，研究團隊還做了一個精巧的"遮蔽消融"實驗：設計了一種變體叫Mask-DRPO，它在信任域邊界內用的是DPPO的行為（完全不懲罰），只在邊界外才施加DRPO的懲罰。結果顯示Mask-DRPO的表現與完整版DRPO非常接近，而其他替代懲罰（SPO二次方、KL對數平方）的遮蔽版本都不如DRPO的遮蔽版本。這說明DRPO的主要增益來自邊界外的糾正信號，同時也再次印證了Binary-TV型懲罰本身的幾何優越性。

關於超參數的魯棒性，實驗表明DRPO對閾值參數δ的選擇不太敏感，從12.5調低到2.5隻帶來輕微的性能下降；而DPPO的最佳參數在不同設置之間差異很大（Qwen3-30B-A3B-Base最佳是0.15，FP8-E2E最佳是0.6），說明DPPO需要更精細的調參，而DRPO相對更"開箱即用"。

六、研究給整個領域的啟示：從"目標函數"到"梯度形狀"的視角轉變

這篇論文不只是提出了一個新算法，還提煉出了一套評價強化學習正則化方法的新思路，對整個AI訓練領域都有參考價值。

贊助商廣告

核心觀點是：設計正則化項時，不應該只看損失函數層面的數學形式有多優雅，更應該看這個正則化項經過梯度計算、經過重要性採樣之後，對每個詞元的更新施加了什麼形狀的權重。如果這個權重是有界的、連續變化的，並且隨著真實的概率偏移量平滑衰減，那麼這個正則化項才真正符合訓練穩定性的需求。

另一個關鍵發現是，"絕對概率偏移"比"概率比率"更適合作為大語言模型強化學習的信任域度量。這不只是一個工程技巧，而是有深刻的統計學理由：絕對概率偏移與TV距離（全變分距離）這一經典概率度量天然對應，而TV距離比KL散度或χ?散度對低概率事件更加穩健，不會因為個別罕見詞的極端比率而放大噪聲。在詞彙表龐大、概率分布高度長尾的語言模型環境中，這一特性尤為關鍵。

研究團隊還指出，"純散度懲罰"並非總是優於"優勢加權散度懲罰"。直覺上，散度懲罰不應該跟任務獎勵混在一起，但實驗反覆表明，不加優勢權重的懲罰反而更容易導致訓練崩潰。根本原因在於，優勢權重讓懲罰的相對強度跟策略梯度的強度保持了一致性，從而維持了一個穩定的、與獎勵規模無關的信任域邊界。

說到底，這項研究回答了一個AI訓練領域的底層問題：訓練大語言模型時，怎樣的"剎車系統"才是合格的？答案是：既能隨著偏離程度漸進加力，又能在越界後提供糾正反饋，還不會因為碰到生僻詞就亂打方向盤。DRPO用一個簡潔的改動——把行為概率乘進SPO的二次方懲罰項——同時滿足了這三點，這也是為什麼它在各種模型架構、精度設置和規模下都能穩定發揮的原因。對於AI研究者來說，這個思路提供了一個實用的設計準則：在寫下任何正則化損失之前，先推導一下它的梯度權重長什麼樣子，那才是訓練動態的真實決定因素。有興趣深入了解完整推導和所有實驗細節的讀者，可以通過arXiv編號2606.09821查閱原論文。

贊助商廣告

Q&A

Q1：DRPO和PPO、GRPO這些常見方法有什麼本質區別？

A：PPO和GRPO用的是概率"比率"來控制AI每次更新的幅度，比率不能超過某個倍數，超了就直接忽略這次更新。DRPO改用概率的"絕對變化量"來做控制，偏移越大折扣越大，超出邊界還會給出反向糾正信號，整個過程是連續平滑的，不是突然切斷。這個差異在語言模型的長尾詞彙上尤其重要，因為罕見詞的比率可以極大但實際影響很小，比率方法會錯誤地過度限制它們。

Q2：DRPO訓練出來的模型在數學題上表現怎麼樣？

A：研究團隊在AIME 2024和AIME 2025這兩個高難度數學競賽題集上測試，覆蓋了從15億參數到350億參數多個規模的模型，也包括了普通精度和FP8低精度等不同硬體設置。結果是DRPO在六個測試場景中全部達到最優或並列最優，尤其在FP8低精度這種訓練不穩定的環境下，比率型方法（GRPO、SPO）往往中途崩潰，而DRPO始終能穩定訓練到最終較高的準確率。

Q3：DRPO的代碼和復現方法在哪裡可以找到？

A：研究團隊已將DRPO的完整代碼開源，託管在騰訊混元的GitHub倉庫中，路徑為Tencent-Hunyuan/UniRL下的DRPO子目錄。代碼基於VeRL訓練框架構建，使用Megatron作為訓練後端、vLLM作為推理後端，論文附錄中提供了詳細的超參數配置表和硬體資源說明，方便研究人員直接復現實驗結果。