宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

騰訊混元、新加坡國立大學聯合出手:讓AI學習更「穩」的秘訣,原來藏在這道「調音旋鈕」里

2026年06月17日 首頁 » 熱門科技

這項由騰訊混元與新加坡國立大學、美國伊利諾伊大學厄巴納-香檳分校聯合完成的研究,以預印本形式發布於2026年6月8日,論文編號為arXiv:2606.09821,題為《Rethinking the Divergence Regularization in LLM RL》(重新思考大型語言模型強化學習中的散度正則化)。

你有沒有想過,當你跟ChatGPT或者其他AI助手對話時,它是怎麼變得越來越"聰明"的?背後有一個關鍵的訓練環節,叫做"強化學習"——簡單說就是讓AI不斷嘗試、犯錯、被糾正,就像一個學生在老師的指導下反覆練習,逐漸掌握某種技能。但這個過程中有一個讓所有AI研究者頭疼的問題:訓練過程極其不穩定,AI有時候會"走偏",一會兒進步神速,一會兒又突然崩潰退步。這篇論文的核心貢獻,就是提出了一種名為DRPO騰訊混元新加坡國立大學聯合出手讓AI學習更穩的秘訣原來藏在這道調音旋鈕里(散度正則化策略優化)的新方法,讓AI的訓練過程更加穩定、高效,而且在多種模型規模和硬體精度設置下都表現優越。

一、為什麼AI訓練會"翻車"?——先聊聊"駕校教練"的困境

要理解這項研究解決的問題,先想像這樣一個場景:一位駕校教練正在培訓學員開車。教練的策略是,每次學員做了好動作就給獎勵,做了危險動作就扣分。但有一個麻煩——教練每次觀察學員操作,記錄下來,然後要回去研究這些記錄好幾遍,才對學員提出改進建議。問題來了:在教練研究記錄的這段時間裡,學員已經又開了好多圈車,技術水平早就不是當初記錄時的狀態了。教練基於"過時的記錄"給出的建議,有時候反而會幫倒忙。

這就是AI強化學習中所謂的"離線策略"問題。AI生成回答(就像學員開車)的模組和實際被訓練改進的模組,在工程實現上存在細微差異;加上為了提高訓練效率,研究人員通常會把一批生成的數據分成好幾小份,反覆用來更新AI參數。結果是,被更新的AI模型和當初生成這批數據的AI模型,已經不完全是同一個"版本"了。

這種不一致如果不加以控制,AI可能會被誤導——它以為某些回答策略很好,拼命強化,結果越走越偏,訓練崩潰。為了解決這個問題,研究者們提出了"信任域"的概念:在每次更新時,不允許AI偏離原來的版本太遠,就像給駕校學員規定"每次練習只能在上次基礎上微調,不能突然換一套完全不同的開車方式"。

目前最主流的方法叫PPO(近端策略優化),它的做法是給AI的每一步更新設置一個"比率限制"——新版AI做某個決策的概率,除以舊版AI做同一決策的概率,這個比值不能超出某個範圍(比如不能超過1.28倍或者低於0.8倍)。一旦超出,就直接把這個更新的梯度砍掉,當作沒發生。這就像是駕校教練規定:"你的方向盤轉動幅度不能超過上次的1.28倍,超了就不算數。"

然而,這種方法有一個深層缺陷,而這正是論文團隊要攻克的核心問題。

二、"比率限制"為什麼靠不住?——低概率詞彙的"放大鏡效應"

AI語言模型工作的基礎,是對詞彙表中每一個詞(或者叫"詞元")分配一個概率。常見詞比如"的"、"是"可能有很高的概率,而專業術語或罕見詞的概率可能極低,比如只有0.001%。

這裡就出現了PPO比率方法的致命弱點。假設AI對某個罕見詞的概率從0.001%增加到了0.1%,概率絕對值只增加了0.099個百分點,這個變化對整個輸出分布的影響微乎其微,可以忽略不計。但是,如果用比率來衡量,這個比率是100倍!PPO會認為這是一次"天大的變化",果斷切斷梯度,阻止這次更新——即使這次更新實際上對AI的行為幾乎沒有影響。

反過來,假設某個常見詞的概率從95%降到了80%,概率絕對值減少了15個百分點,這對AI的實際行為影響非常大。但是用比率來看,只有0.84倍,在PPO允許的範圍之內,於是這次更新順利通過了——即使它對AI的決策方式影響深遠。

換一個更形象的比喻:這就像用"百分比漲幅"來控制股市風險,規定漲幅超過20%就停牌。一隻價值0.01元的垃圾股從0.01元漲到0.012元,漲幅20%停牌;而一隻價值100元的績優股從100元跌到80元,跌幅20%,剛好卡線,還能繼續交易。明顯的,這個規則對"便宜股"太苛刻,對"貴价股"又太寬鬆,根本沒有有效反映真實的市場風險。

為了解決這個問題,此前有一項名為DPPO(散度近端策略優化)的工作,改用"絕對概率變化"來衡量每個詞元的變化幅度:直接看新舊版AI對同一個詞的概率差了多少,而不是比率。這樣,罕見詞再怎麼按比率增長,絕對概率變化很小,不會被過度限制;而高概率詞如果大幅變化,才會觸發限制。這是一大進步。

但DPPO還有自己的問題:它依然用的是"硬性開關"——一旦某個詞的概率變化超過了閾值,就直接把這個詞的梯度歸零,完全不理它。就像水龍頭,要麼全開要麼全關,沒有中間狀態。這種突然的"一刀切"會讓訓練過程出現不穩定的抖動,而且一旦某個詞已經"越界"了,DPPO既不會推它回來,也不會繼續教它——它就被徹底忽略了。

三、DRPO的核心思想:把"開關"換成"旋鈕"

這項研究的核心貢獻,就是把DPPO的"硬性開關"替換成了一個"平滑旋鈕"。

繼續用駕校的比喻:PPO的做法是"如果你的方向盤角度變化比率超標,這次操作不算";DPPO改進為"如果你方向盤的實際角度偏移超過了某個絕對值,這次操作不算";而DRPO的做法是"方向盤偏移越接近限制值,我給你的操作分數打折越多;超過限制值之後,我不僅打折,還會主動給你反饋讓你往回調"。這是一個連續的、漸進的過程,而不是突然的開關。

技術上,DRPO的做法是在原有的目標函數中,加入一個"平方懲罰項"。這個懲罰項的作用,是在AI對某個詞的概率變化越大時,給這次更新打越大的"折扣"。當概率變化超過閾值時,折扣變成負數,也就是說更新方向反轉了——原本要推概率往某個方向走,現在變成把概率往回拉。

數學上,DRPO的目標函數可以表達為:對每個詞元,用概率比率乘以優勢值(衡量這次回答有多好),減去一個懲罰項。懲罰項的核心是"行為策略的概率乘以概率比率與1之差的平方,再除以兩倍閾值",並且整個懲罰項還要乘以優勢值的絕對值。正是這個行為策略概率的乘法因子,把原來SPO方法的"χ?散度"(卡方散度)約束,轉變成了"l?散度"(絕對概率平方距離)約束,恰好對應DPPO想要的"絕對概率變化"信任域邊界。

由此產生的梯度權重,是一個隨概率變化幅度和方向連續變化的量。具體來說,當某次更新是在"推離"行為策略時,權重從1開始,隨著絕對概率變化增大而線性下降,在恰好到達信任域邊界時降為0,越過邊界後變為負值——這就是"糾正信號"。當某次更新是在"回歸"行為策略時,權重則大於1,意味著"往回走"的更新會被額外鼓勵和放大。

整個權重被限制在一個有界範圍內。之所以強調"有界",是因為大型語言模型有著龐大的詞彙表,其中大量罕見詞(概率極低)在訓練中被採樣到時,SPO方法的比率權重可能會在這些詞上變得極其巨大,造成梯度爆炸,訓練崩潰。DRPO用的是絕對概率變化,概率差值永遠在0到1之間,因此權重永遠是有界的,不會出現這種失控情況。論文中展示了來自Qwen3-30B-A3B-Base模型的實際採樣數據:概率低於0.01的詞元占總採樣量的7.8%,這個比例相當可觀,足以說明忽視"低概率尾部"的方法在實際訓練中面臨真實風險。

四、與其他方法的對比:同樣是"旋鈕",為什麼別人的不好用?

研究團隊還系統分析了其他幾種看起來類似的方法,解釋為什麼它們都不如DRPO。

先說SPO(簡單策略優化)。SPO也用了平滑的二次方懲罰,但它的懲罰項里沒有乘以行為策略概率這個因子。結果是它的梯度權重取決於概率比率,而不是絕對概率變化。對於低概率詞,比率可以極大,導致梯度權重可以趨向無窮大,訓練不穩定。

再說基於KL散度的懲罰方法。KL散度是一種常用的衡量兩個概率分布差異的指標。但論文團隊推導證明,當對單個採樣詞元使用KL懲罰並通過重要性採樣展開梯度後,梯度權重仍然是比率的函數,而非絕對概率差的函數。對於正優勢詞元,KL懲罰甚至根本不產生有限的"停止點"——它的梯度權重永遠為正,理論上不會阻止AI對正優勢詞的概率無限增大。對於負優勢詞元,停止點依賴於行為概率的倒數,同樣存在低概率詞放大的問題。

還有一種用TV散度(全變分散度)的懲罰。TV懲罰的採樣梯度只取決於方向(更新是在推離還是回歸行為策略),而不取決於偏移量的大小。這意味著不管當前已經偏離多遠,懲罰力度都是一樣的——沒有"越靠近邊界越溫柔,越遠離邊界越用力拉"的效果,變成了另一種形式的"開關"。

以上分析的核心結論是:一個正則化項在損失函數層面看起來多麼合理,都不如看它的梯度對每個詞元施加了什麼形狀的權重。名字叫"TV散度"不等於梯度行為符合TV幾何;名字叫"KL散度"不等於不會產生比率爆炸問題。DRPO之所以有效,根本原因在於它的梯度權重連續、有界,且隨絕對概率變化平滑變化,與"絕對概率偏移不超過閾值"這一信任域形狀精確對應。

另外,論文還特別強調了"優勢值絕對值加權"這一設計的重要性。DRPO的懲罰項乘以了優勢值的絕對值,這看起來像是一個不純粹的做法——純散度懲罰不應該跟獎勵信號掛鉤。但實驗結果一再表明,去掉這個因子會導致訓練不穩定甚至崩潰。理由在於:優勢值同時也是策略梯度的"力度係數",如果不對懲罰項做同樣的縮放,懲罰強度在不同優勢大小的詞元上就失去了相對一致性,信任域邊界實際上會隨每個詞的優勢值浮動,導致不同詞受到完全不同的約束力度,整個訓練過程因此變得混亂。

五、實驗結果:在多種真實場景下都更穩、更好

研究團隊在多個不同的模型和設置上驗證了DRPO的效果,選用的都是業界公認的強基線模型,測試的任務是數學推理,評估指標是AIME 2024和AIME 2025(美國數學邀請賽)的平均準確率。

參與實驗的模型包括Qwen3-4B-Base(一個相對較小的模型)、Qwen3-30B-A3B-Base(中等規模的混合專家架構模型)、Qwen3.5-35B-A3B-Base(更大的混合專家模型),以及DeepSeek-R1-Distill-Qwen-1.5B(一個已經經過推理蒸餾的小模型)。訓練數據來自DAPO數據集的過濾子集,約13000道數學題,以及一個包含1460道可解問題的小型測試集。為了測試在更困難條件下的表現,研究團隊還專門針對Qwen3-30B-A3B-Base運行了FP8單精度推理(相當於計算時用更省內存但精度稍低的數值格式進行推理)和FP8端到端(訓練和推理都用FP8)兩個額外設置。FP8精度設置下訓練-推理數值差異更大,更容易暴露各方法的穩定性問題。

對比的基線方法包括:無任何信任域限制的原始代理梯度、GRPO(帶Clip-Higher技巧)、SPO、DPPO,以及DRPO。

實驗結果在六個設置中高度一致:以比率為基礎的方法(GRPO和SPO)在低精度設置下最容易崩潰,即便在正常精度下,它們的訓練效率和最終準確率也普遍落後於散度型方法。DPPO(散度型硬掩碼方法)雖然能穩定訓練,但收斂速度偏慢,最終準確率通常低於DRPO。無任何約束的方法在某些設置下表現出色,但可靠性差,在Qwen3-4B-Base的實驗中準確率從0.25驟降至0.17,說明信任域約束確實不可或缺。DRPO在六個設置中全部表現最優或者與最優持平,且訓練曲線最平穩。

消融實驗進一步揭示了各個設計選擇的貢獻。優勢值絕對值加權的重要性通過去掉這個因子的對比實驗得到驗證:無論對SPO還是DRPO,去掉這個因子都會讓性能顯著下降並引入不穩定性。替代散度(KL、TV)的劣勢通過直接替換實驗得到驗證:即便KL懲罰經過精心的超參數調整,在全部六個設置上也無法追上DRPO。

此外,研究團隊還做了一個精巧的"遮蔽消融"實驗:設計了一種變體叫Mask-DRPO,它在信任域邊界內用的是DPPO的行為(完全不懲罰),只在邊界外才施加DRPO的懲罰。結果顯示Mask-DRPO的表現與完整版DRPO非常接近,而其他替代懲罰(SPO二次方、KL對數平方)的遮蔽版本都不如DRPO的遮蔽版本。這說明DRPO的主要增益來自邊界外的糾正信號,同時也再次印證了Binary-TV型懲罰本身的幾何優越性。

關於超參數的魯棒性,實驗表明DRPO對閾值參數δ的選擇不太敏感,從12.5調低到2.5隻帶來輕微的性能下降;而DPPO的最佳參數在不同設置之間差異很大(Qwen3-30B-A3B-Base最佳是0.15,FP8-E2E最佳是0.6),說明DPPO需要更精細的調參,而DRPO相對更"開箱即用"。

六、研究給整個領域的啟示:從"目標函數"到"梯度形狀"的視角轉變

這篇論文不只是提出了一個新算法,還提煉出了一套評價強化學習正則化方法的新思路,對整個AI訓練領域都有參考價值。

核心觀點是:設計正則化項時,不應該只看損失函數層面的數學形式有多優雅,更應該看這個正則化項經過梯度計算、經過重要性採樣之後,對每個詞元的更新施加了什麼形狀的權重。如果這個權重是有界的、連續變化的,並且隨著真實的概率偏移量平滑衰減,那麼這個正則化項才真正符合訓練穩定性的需求。

另一個關鍵發現是,"絕對概率偏移"比"概率比率"更適合作為大語言模型強化學習的信任域度量。這不只是一個工程技巧,而是有深刻的統計學理由:絕對概率偏移與TV距離(全變分距離)這一經典概率度量天然對應,而TV距離比KL散度或χ?散度對低概率事件更加穩健,不會因為個別罕見詞的極端比率而放大噪聲。在詞彙表龐大、概率分布高度長尾的語言模型環境中,這一特性尤為關鍵。

研究團隊還指出,"純散度懲罰"並非總是優於"優勢加權散度懲罰"。直覺上,散度懲罰不應該跟任務獎勵混在一起,但實驗反覆表明,不加優勢權重的懲罰反而更容易導致訓練崩潰。根本原因在於,優勢權重讓懲罰的相對強度跟策略梯度的強度保持了一致性,從而維持了一個穩定的、與獎勵規模無關的信任域邊界。

說到底,這項研究回答了一個AI訓練領域的底層問題:訓練大語言模型時,怎樣的"剎車系統"才是合格的?答案是:既能隨著偏離程度漸進加力,又能在越界後提供糾正反饋,還不會因為碰到生僻詞就亂打方向盤。DRPO用一個簡潔的改動——把行為概率乘進SPO的二次方懲罰項——同時滿足了這三點,這也是為什麼它在各種模型架構、精度設置和規模下都能穩定發揮的原因。對於AI研究者來說,這個思路提供了一個實用的設計準則:在寫下任何正則化損失之前,先推導一下它的梯度權重長什麼樣子,那才是訓練動態的真實決定因素。有興趣深入了解完整推導和所有實驗細節的讀者,可以通過arXiv編號2606.09821查閱原論文。

Q&A

Q1:DRPO和PPO、GRPO這些常見方法有什麼本質區別?

A:PPO和GRPO用的是概率"比率"來控制AI每次更新的幅度,比率不能超過某個倍數,超了就直接忽略這次更新。DRPO改用概率的"絕對變化量"來做控制,偏移越大折扣越大,超出邊界還會給出反向糾正信號,整個過程是連續平滑的,不是突然切斷。這個差異在語言模型的長尾詞彙上尤其重要,因為罕見詞的比率可以極大但實際影響很小,比率方法會錯誤地過度限制它們。

Q2:DRPO訓練出來的模型在數學題上表現怎麼樣?

A:研究團隊在AIME 2024和AIME 2025這兩個高難度數學競賽題集上測試,覆蓋了從15億參數到350億參數多個規模的模型,也包括了普通精度和FP8低精度等不同硬體設置。結果是DRPO在六個測試場景中全部達到最優或並列最優,尤其在FP8低精度這種訓練不穩定的環境下,比率型方法(GRPO、SPO)往往中途崩潰,而DRPO始終能穩定訓練到最終較高的準確率。

Q3:DRPO的代碼和復現方法在哪裡可以找到?

A:研究團隊已將DRPO的完整代碼開源,託管在騰訊混元的GitHub倉庫中,路徑為Tencent-Hunyuan/UniRL下的DRPO子目錄。代碼基於VeRL訓練框架構建,使用Megatron作為訓練後端、vLLM作為推理後端,論文附錄中提供了詳細的超參數配置表和硬體資源說明,方便研究人員直接復現實驗結果。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新