這項由清華大學深圳國際研究生院與騰訊混元聯合完成的研究,於2026年6月發表在arXiv預印本平台,論文編號為arXiv:2606.19236。感興趣的讀者可以通過這個編號檢索到完整論文原文。
當我們談論今天那些能寫作文、解數學題、甚至編程序的AI大模型時,背後有一套至關重要的"訓練機制"在默默支撐——強化學習。這套機制的工作方式有點像培訓一個棋手:讓他不斷下棋,贏了就鼓勵,輸了就懲罰,久而久之他就越來越厲害。DeepSeek-R1、Qwen3這些近年來大放異彩的AI模型,都在很大程度上依賴這套機制。
然而,這個聽起來完美的訓練流程有一個致命弱點——它會逐漸讓AI陷入一種"思維僵化"的狀態。用學術語言來說,叫做"策略熵崩潰"。通俗地講,就是AI在學著學著的過程中,開始固執地只走同一條路,失去了探索新方法的好奇心,最終過早停止進步。清華大學與騰訊的研究團隊正是針對這個頑疾,提出了一套名為STARE的解決方案,並在從1.5億到320億參數規模的多個主流AI模型上驗證了其有效性,在AIME24和AIME25這兩項權威數學競賽基準測試上,相比當時最強的基線方法提升了4%到8%的準確率。
一、AI是怎麼"學會思考"的,又是怎麼"學偏"的
要理解這項研究解決的問題,先得搞清楚AI是怎麼通過強化學習提升能力的。
研究團隊使用的核心訓練算法叫GRPO(Group Relative Policy Optimization,組相對策略優化)。打個比方,這就像一位老師給學生布置了一道數學題,然後同時讓這個學生寫出八份不同的解題思路。老師把這八份答案一起批改,評分最高的那些答案會被鼓勵"以後多這樣做",評分最低的那些會被告知"別這麼做了"。
具體來說,AI會為每道題生成一組答案,然後根據每個答案是否正確來評分,再用這個分數的相對高低(而非絕對數值)來指導模型的調整方向。這種方式的好處是不需要額外訓練一個"裁判模型",直接用答案對不對來獎懲,簡單有效。
但問題就出在訓練進行了一段時間之後。隨著AI越來越熟悉解題模式,它開始在面對同一道題時,八份答案長得越來越像,最終幾乎一模一樣。這就是"熵崩潰"——熵是衡量多樣性或不確定性的指標,熵越低,意味著AI的輸出越單一。
這種狀態下,老師(算法)給出的獎懲信號就變得毫無意義了,因為所有答案都差不多,區分不出好壞。AI就像一個已經"內卷"到極致的學生,每次考試都用同一個套路,雖然短期內成績還過得去,但徹底失去了應對新題型的靈活性,也不再進步了。
現有的修複方案各有各的局限性。有的方法是調整"獎懲力度的邊界"(比如DAPO的clip-higher機制),相當於告訴學生"寫錯了也沒太大懲罰",這在一定程度上能保護一些少見的探索性答案,但控制粗糙,效果不穩定。有的方法是在整體層面對表現好和表現差的答案採用不同權重,這相當於"好答案加倍鼓勵,壞答案加倍懲罰",但還是沒有細化到每一個具體的詞(token)上。還有的方法直接把"多樣性獎勵"加入訓練目標,結果往往矯枉過正,導致AI開始"胡言亂語"以維持多樣性。
這些方法的共同問題是:它們都在"軌跡"層面(即整條答案路徑)做調整,而沒有深入到"詞語"層面去分析真正的根源。
二、找到病根:是哪些詞在偷偷"壓制"AI的探索欲
清華騰訊團隊做的第一件重要工作,是從數學上嚴格推導出熵崩潰的根本原因所在。
這裡需要引入一個關鍵概念:**token(詞語單元)**。AI生成文字時,是一個詞一個詞地往外蹦的,每次輸出一個詞,都伴隨著一次概率分布的選擇。"熵"這個指標,就是在衡量這個概率分布有多"均勻"——如果AI覺得下一個詞100%是"等於",這個分布的熵就是零;如果它覺得"等於"和"所以"和"因此"都有可能,熵就比較高。
研究團隊推導出一個關鍵定理(定理3.1,論文中稱為"詞級別熵變定理"):在GRPO的訓練機制下,每一個詞對整體熵的影響,等於該詞所在答案的"優劣評分(優勢值)"乘以一個與該詞本身概率相關的"熵敏感函數"。
這個推導結果揭示了一個此前被忽視的矛盾結構。為了理解這個矛盾,可以考慮這樣一個場景:AI在做一道數學推導題,其中大部分詞都是"因為"、"所以"、"等於"這類高頻詞,AI對它們有十足的把握(概率很高,"驚訝度"很低);而只有少數關鍵節點,比如"不妨設"、"反設"、"驗證"這類詞,AI還有些拿不準(概率偏低,"驚訝度"高)。
研究團隊發現,這兩類詞對熵的影響方向是完全相反的。當一個答案被判定為"好答案"(正優勢)時,AI會對整條路徑上的所有詞都加大強化——然而,那些高頻低驚訝度的詞(如"所以"、"等於")會讓熵下降,而那些低頻高驚訝度的詞(如"反設"、"驗證")會讓熵上升。
麻煩在哪裡?麻煩在於,既然這些詞都是AI自己生成的,高頻詞天然就比低頻詞多得多。在一段數學推導里,"所以"可能出現幾十次,而"反設"可能只出現一兩次。於是,"讓熵下降"的詞的總影響力,遠遠壓過了"讓熵上升"的詞——GRPO給整條答案路徑分配同一個評分,完全無法區分這兩類詞截然相反的效果。
研究團隊把這個現象概括為一個"四象限結構"。具體來說,一個詞所在答案的評分(正/負)與這個詞本身的驚訝度(高/低)組合起來,決定了它對熵的影響方向。正評分遇到低驚訝度,熵下降;正評分遇到高驚訝度,熵上升;負評分遇到低驚訝度,熵上升;負評分遇到高驚訝度,熵下降。
由於高頻低驚訝度的詞在統計上占絕大多數,整體效果就是持續壓低熵,直到AI的輸出變得極度單一。這就是熵崩潰的真正根源:不是訓練目標有問題,而是詞級別的"信用分配"出了偏差。
三、接近臨界點:只需輕輕一推,就能改變方向
找到了病根,研究團隊接下來證明了另一個關鍵性質,這個性質直接決定了解決方案需要多大的力度:近臨界性(Near-Criticality)。
想像一下用手推一個放在斜坡上的球。如果球已經在斜坡頂端接近臨界點的位置,你只需要一點點力,它就會開始滾下來,然後越滾越快。這裡的"一點點力",就是研究團隊發現的那個驚人結論:要讓熵從"一直在降"變成"開始回升",所需要的詞級別權重調整,在數學上是一個極小的量——大約是訓練序列長度的倒數(O(T??))。
換句話說,你不需要大幅度改變整個訓練機制,只需要對少量關鍵詞語輕微調整一下權重,就足以扭轉整體熵的演化方向。而且一旦超過這個臨界點,具體調整多少其實並不重要,方向已經確定了,幅度只影響"多快回升"而不影響"回不回升"。
這個性質的證明依賴另一個數學定理(定理3.4,"熵中性恆等式"):對於任何概率分布,所有詞語的熵敏感函數的期望值恰好等於零。這意味著在理想狀態下(如果每個詞都受到公平對待),熵既不會增也不會減。實際中熵之所以會減,完全是因為高頻詞得到了過多的"話語權"。糾偏這個不均衡,成本極低。
這個發現非常重要,因為它告訴研究者:不需要大動干戈地修改整個訓練框架,一個精準、輕量的干預就夠了。
四、STARE:一把精準的"調音師"之手
基於上述理論分析,研究團隊設計了STARE(Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability,基於驚訝度的詞級別優勢重加權方法)。
這套方法的核心邏輯可以用"調音"來理解。一首交響樂里有各種樂器,如果小提琴(相當於高頻低驚訝度詞)的音量蓋過了其他所有樂器,整首曲子就會失去層次感。STARE的做法是:識別出那些被淹沒的"關鍵少數樂器"(高驚訝度詞),然後有選擇地把它們的音量調大一點,讓整體音樂恢復平衡。
具體的實現分三個步驟。第一步是識別關鍵詞。STARE在每個訓練批次中,分別對"被評為好答案"的那組詞語和"被評為差答案"的那組詞語,按照驚訝度從高到低排序,取各自前10%的詞組成兩個"關鍵詞集合"。驚訝度的計算非常直接,就是詞語在當前模型下的生成概率取對數後取負值——概率越低,驚訝度越高,說明這個詞越出人意料。
第二步是調整權重。對於"好答案中的高驚訝度詞",將其對訓練梯度的貢獻放大(乘以權重W,默認為1.1);對於"差答案中的高驚訝度詞",將其貢獻縮小(乘以權重M,默認為0.9)。前者的邏輯是:這些詞同時具有"來自好答案"和"能提升熵"兩個屬性,應該被更多鼓勵。後者的邏輯是:差答案中的高驚訝度詞如果被過度懲罰,會讓AI放棄那些原本有探索價值的詞語選擇,進一步壓縮多樣性。
第三步是閉環控制。純粹調大這些詞的權重,有可能走向另一個極端——AI開始"亂說話",為了維持高熵而輸出無意義內容。為了避免這種情況,STARE引入了一個"目標熵"(默認設為0.3)作為控制閥門。每個訓練批次結束時,算法會檢查當前批次的平均熵:如果熵低於目標值,就激活上述權重調整;如果熵已經高於或等於目標值,就自動關閉調整,恢復成普通的GRPO訓練。這樣一來,熵就像被恆溫器控制的室溫一樣,始終在目標值附近小幅震盪,既不會崩潰,也不會過熱。
整套方案的參數非常少,也非常穩健。權重W只需要在1.05到1.5之間,關鍵詞比例P在5%到20%之間,目標熵在0.2到0.4之間,效果都相當好。這與前面提到的"近臨界性"完美對應:超過臨界點後,具體數值影響不大,方向才是關鍵。
五、實驗驗證:從小模型到大模型,從數學到工具調用
為了徹底驗證STARE的有效性,研究團隊進行了一系列規模可觀的實驗。
在模型規模方面,實驗覆蓋了從DeepSeek-R1-Distill-Qwen-1.5B(15億參數)、Qwen2.5-Math-7B-Base(70億)、Qwen2.5-14B-Instruct(140億),一直到Qwen2.5-32B-Base(320億),跨越了當前主流的幾乎所有參數量級。
在任務類型方面,實驗分三類場景:短鏈推理(直接輸出答案,無需長篇思考)、長鏈推理(需要寫出完整推導過程,甚至自我反思和糾錯)、多輪工具調用(AI需要在對話中反覆調用計算器、搜索等工具來解題)。這三類場景覆蓋了當前AI應用的主要方向。
訓練時長也專門做了壓力測試。在70億參數的短鏈推理場景下,研究團隊進行了整整5000步的訓練,是通常實驗規模的數倍。結果非常清楚:使用普通GRPO的對照組,在大約前1000步時熵就跌近於零,隨後AIME24的準確率在略微上升後完全停滯,不再進步;而使用STARE的實驗組,熵始終穩定在0.3左右小幅震盪,準確率則持續爬升,一直到5000步時還在提高,最終比對照組高出了約7個百分點。
在140億和320億參數的模型上,研究團隊進行了1500步的訓練。同樣的規律出現了:普通GRPO的熵快速下滑,性能很快飽和;STARE維持了穩定的熵,準確率持續改善,在AIME24上分別高出6.6和4.8個百分點。
在多輪工具調用場景(用Qwen2.5-7B-Base從零開始訓練)中,STARE將AIME24的平均準確率從46.8%提升到53.2%,AIME25從32.4%提升到37.5%,平均提升約5.5個百分點,同時超越了SimpleTIR等專門針對工具調用場景設計的方法。
實驗結果還揭示了一個有趣的細節:STARE訓練出來的模型,在回答問題時會更頻繁地出現"等等"、"但是"、"重新驗證"這類詞語,體現出更活躍的自我檢查和糾錯行為。研究團隊對Qwen2.5-32B-Base的回答進行了分類統計,發現STARE模型在對比、反思、自我糾錯、猶豫、回溯、總結修正這六類"反思行為"詞語上,全面超過了普通GRPO,尤其是"反思"和"自我糾錯"兩類差距最為顯著。這與STARE保護了高驚訝度詞(那些不那麼常見但往往承載關鍵思維轉折的詞)的設計初衷完全吻合。
研究團隊還做了一個精細的消融實驗:分別測試了四種"單極性操作"(只調整四個象限之一)和四種"雙極性組合操作",共八種變體。結果發現,所有八種變體都能有效緩解熵崩潰,但表現最佳的是"放大好答案中的高驚訝度詞"(O1變體)和"同時放大好答案高驚訝度詞、縮小差答案高驚訝度詞"(C2變體),兩者分別達到AIME24準確率44.2%和42.5%。這個對比證明了理論推導中的四象限分析是實際有效的,每個象限都真實地對應著一類有意義的干預方向。
另一個關鍵對比是將STARE的動態分位數選詞方式,與一種簡單替代方案進行比較:簡單替代方案是把"概率低於0.1的所有詞"全部放大權重。這個方案只能讓AIME24提升1.8個百分點,而STARE能提升7.1個百分點。這個差距直觀說明了動態、自適應地從當前批次中選取關鍵詞,遠勝於用一個固定閾值強行劃線。
六、為什麼這件事比看起來重要得多
STARE的意義不僅僅在於讓幾個數學測試分數更高。它指向的是AI訓練中一個更基本的問題:長周期訓練的可持續性。
目前大多數AI模型的強化學習訓練都在幾百步到一兩千步時就因為熵崩潰而被迫停止,再繼續下去性能反而會退步。STARE在實驗中證明了,至少在5000步時模型性能還在穩定提升,真正的性能上限究竟在哪裡,目前還無法確定。這意味著此前整個領域都可能低估了強化學習訓練AI的潛力,以為到了瓶頸,其實只是因為訓練方式上存在一個可以修復的缺陷。
從Pass@32這個指標(讓AI對同一道題回答32次,只要有一次答對就算通過)來看,STARE訓練的模型在整個訓練過程中始終保持著比對照組更高的值,說明模型內部保留了更多的多樣性和探索能力。這類似於一個學生在考試中不僅知道一種解題方法,而是心中儲備了多條備用路徑。當遇到新題型時,這種儲備的價值就體現出來了。
此外,STARE的介入方式極為輕量。它沒有修改GRPO的核心算法,沒有增加額外的計算開銷(驚訝度是生成文本時順手就能得到的資訊),也沒有引入新的超參數組合難題。它只是在原有框架內,對一小部分詞語的梯度貢獻做了微小調整,就實現了顯著的效果改善。這讓它在工程實踐中非常容易被已有的訓練流程採納。
說到底,STARE這項工作真正的貢獻,在於它把一個此前只能模糊感知、難以解釋的訓練問題("AI為什麼會越訓越僵化?"),轉化成了一個有明確數學形式的機制分析,然後基於這個分析設計出了一個有針對性的、理論上可證明有效的解決方案。這條從"發現問題"到"分析本質"到"設計方案"再到"實驗驗證"的完整鏈條,為AI訓練領域提供了一個可以借鑑的研究範式。
歸根結底,熵崩潰這個問題就像是訓練過程中一塊慢慢積累的水垢,堵塞了AI繼續學習的管道。STARE做的事情,是找到了水垢積累的化學原理,然後配製了一種精準的清潔劑,只作用於積垢的地方,不傷害管道本身。未來隨著AI模型規模越來越大、訓練時間越來越長,這樣的"管道維護"工具會越來越重要。
有興趣進一步了解技術細節的讀者,可以通過arXiv編號2606.19236查閱完整論文,研究代碼也已在GitHub上開源,地址可從論文中獲取。
Q&A
Q1:STARE方法是怎麼選出那些"關鍵詞"的?
A:STARE在每個訓練批次中,分別從"被評為好答案的詞組"和"被評為差答案的詞組"里,按照每個詞被AI生成時的概率高低來排序——概率越低說明AI越"驚訝",排名越靠前。然後取各自排名前10%的詞作為關鍵詞集合。這個方法不需要任何額外計算,因為生成文本時模型自然就會產生這些概率值,非常輕量高效。
Q2:熵崩潰只在數學題訓練中才會出現嗎?
A:並不是。研究中驗證的場景除了數學推理之外,還包括需要寫長篇推導過程的"長鏈推理"場景,以及AI需要在對話中反覆調用工具(如計算器)的"多輪工具調用"場景。三類場景中都出現了熵崩潰,並且STARE在三類場景中都有效緩解了這個問題,說明熵崩潰是當前強化學習訓練框架中一個相當普遍的現象。
Q3:STARE和DAPO這類方法有什麼本質區別?
A:DAPO等方法主要是在答案層面(整條回答路徑)做調整,比如改變對低概率詞的懲罰力度或調整不同答案之間的權重比例,屬於較粗粒度的干預。STARE則深入到了單個詞語的層面,基於每個詞對熵的影響方向來差異化調整其訓練權重,並且有嚴格的數學推導作為支撐。打個比方,DAPO像是給整道菜調整鹹淡,而STARE像是精確地為每種食材單獨調味,顆粒度更細、理論基礎更紮實。






