這項由中國科學技術大學與美團聯合開展的研究,於2026年4月發布在預印本平台arXiv上,論文編號為arXiv:2604.10688。參與機構還包括南京大學、復旦大學和華中科技大學。感興趣的讀者可通過該編號查閱完整論文。
**當AI變成"應試機器",我們該怎麼辦?**
假設你有一位家庭教師,每次輔導你解題時,不管題目難不難、你犯的是什麼錯,他都用同樣的方式、同樣的力度糾正你。時間久了,你會發現自己越來越擅長用固定的套路解某類題,但一遇到稍有變化的題型就徹底懵圈——因為你的思維被"馴化"成了單一模式。現如今,大型語言模型(也就是ChatGPT、DeepSeek
這類AI)在訓練過程中正面臨著類似的困境。研究團隊注意到,現有的AI訓練方法在讓模型"答對題"的同時,悄悄扼殺了它的思維多樣性。這篇論文提出的SCOPE框架,正是為了解決這個看似矛盾的難題。
**一、AI訓練中的"偏科"現象:越練越死板**
要理解這個問題,先得了解AI是怎麼學習的。大語言模型學習推理的過程,有點像學生參加模擬考試。AI自己先做一道題,然後根據最終答案對不對來打分,並以此調整自己的思考習慣。這種方法叫做"在線強化學習",是目前訓練AI推理能力的主流方式。
然而,這種只看最終對錯的評分方式有一個大問題:AI每次做題都要寫很長的推理過程,但得分只在最後給出,所以AI很難搞清楚推理過程中哪一步功勞最大、哪一步拖了後腿。這就像你參加了一場接力賽,最後成績出來了,卻不知道是哪個隊員跑得最快、哪個隊員拖了時間。
為了解決這個"功勞歸屬"難題,研究者引入了一種叫做"在線蒸餾"(On-Policy Distillation,簡稱OPD)的方法。這就好比給AI配了一位"老師模型"——一個能力更強的AI。當學生AI自己做題時,老師AI會實時跟蹤每一個字、每一個詞的生成,給出細粒度的指導信號,而不僅僅是在最後說"對"或"錯"。這種方式讓訓練更高效、更精準。
但是,現有的在線蒸餾方法存在一個被忽視的假設:老師AI對所有題目、所有時刻的指導都同樣可靠。這個假設,在現實中根本站不住腳。
**二、發現問題的兩個實驗:老師也會"發懵",學生越練越"偏科"**
研究團隊在正式提出解決方案之前,先做了兩個關鍵實驗,揭示了現有方法的兩個致命缺陷。
第一個問題叫做"多樣性退化"。研究團隊在Qwen2.5-7B模型上做了實驗:只強化AI自己做對的題目(一種叫做"正樣本強化"的方法),結果發現一個弔詭的現象——在只做一次嘗試時,AI的正確率從63.2%提升到了74.1%,看起來進步明顯。但當給AI32次嘗試機會、只要有一次答對就算成功時,成功率卻從93.7%暴跌到了84.9%。這意味著AI雖然在單次表現上變好了,但它的思維空間卻收窄了,"旁門左道"的解題路徑被一條條掐斷。
用一個比方來說:一個學生原本會用三種不同的方法解同一道數學題,經過強化訓練後,他只記住了最常用的那種方法,另外兩種方法雖然也正確,但因為不常用而被遺忘。這樣的學生在考試時,一旦遇到需要靈活變通的題目,就會束手無策。研究團隊隨後在DeepSeek-R1-Distill-Qwen-1.5B上用在線蒸餾方法重複實驗,發現了同樣的悲劇:單次正確率提升了,但多次嘗試的成功率從76.5%降到了75.0%。兩種主流方法都會導致同樣的"思維單一化"。
第二個問題叫做"糾錯低效"。當AI做了一道錯題時,可以讓老師AI來糾正它。但研究團隊發現,一旦學生AI的推理過程本身就是亂糟糟的,老師AI讀完這些混亂的"思考過程"後,自己也會陷入困惑,給出的糾正信號就成了噪音。
為了驗證這一點,研究團隊從DeepMath數據集裡抽取了2000道題,讓學生模型(DeepSeek-R1-Distill-Qwen-1.5B)生成錯誤的推理過程,然後用老師模型(Skywork-OR1-MATH-7B)來評估這些錯誤推理過程。他們用一個叫"困惑度"(PPL)的指標來衡量老師讀完學生推理過程後有多困惑——困惑度越高,說明老師越看不懂。
接著,他們做了一個"截斷實驗":把學生的錯誤推理過程截斷到不同長度(截去20%、40%、60%、80%),讓老師從這個不完整的地方接著往下推理,看看能不能得出正確答案。結果令人印象深刻:那些讓老師感到困惑度最低的推理前綴(Q1組,平均困惑度1.36),在截斷20%時的糾錯成功率高達64.9%;而讓老師最困惑的前綴(Q4組,平均困惑度2.38),同樣條件下成功率只有45.4%,差距高達19.4個百分點。當截斷比例增加到80%時,即便是最"友好"的前綴,糾錯成功率也跌到了35.8%左右,而最混亂的前綴更是只有28.6%。
這說明什麼?當學生AI的推理過程本身邏輯混亂,老師AI就像是被塞進了一篇充滿錯誤的作文里,硬要從中間接著寫下去,結果只能越寫越偏。在這種情況下,強迫學生AI去模仿老師"困惑"狀態下給出的信號,無異於用噪音來糾正錯誤。
**三、SCOPE框架:像聰明的老師一樣區別對待不同作業**
基於這兩個發現,研究團隊提出了SCOPE(Signal-Calibrated On-Policy Distillation Enhancement,信號校準在線蒸餾增強)框架。這個框架的核心思想可以用一個聰明老師的工作方式來類比。
一位真正有經驗的老師,不會對所有作業一視同仁。對於學生做對了的題目,老師會想:這道題他做對了,但用的是最笨的方法還是最巧妙的方法?如果是笨方法,要多鼓勵他繼續探索更好的路徑;如果是他最擅長的常規方法,就不必過度強化。對於學生做錯了的題目,老師會先看看:這個錯誤我能看懂是哪裡出了問題嗎?如果能看懂,就給出精準的糾正;如果學生的邏輯已經亂成一鍋粥,老師自己也不知道從哪裡說起,那這道題就先擱置,不要強行糾正,以免越糾越亂。
SCOPE框架把AI的每次推理過程(稱為"軌跡")按照最終對錯分成兩條路徑來處理,這叫做"結果驅動的分組分支"。在每次訓練中,AI對同一道題生成多個推理過程,然後用驗證器判斷哪些是正確的(放入"正確集合"),哪些是錯誤的(放入"錯誤集合")。
對於錯誤軌跡,SCOPE採用"老師困惑度加權蒸餾"。老師AI讀完這條錯誤推理後,如果自己的困惑度很低(說明還能看懂學生在想什麼,只是結論錯了),那就給這條軌跡分配高權重,讓老師的糾正信號充分影響學生。反之,如果老師讀完後困惑度極高(說明學生的推理已經亂到老師也不知道如何糾正),那就把這條軌跡的權重壓低,幾乎忽略老師的信號,避免把噪音傳遞給學生。
對於正確軌跡,SCOPE轉而使用"學生困惑度加權最大似然"。不依靠老師的指導,而是直接強化學生自己做對的推理過程。但關鍵在於,並非所有做對的推理過程都同等對待。如果某條正確推理對學生來說是"輕而易舉"的(學生的困惑度很低,說明這是他的熟練套路),就分配較低權重,不必過度強化這種他已經掌握的路徑。反之,如果某條正確推理對學生來說比較"意外"(困惑度較高,說明這是一條不尋常的解題路徑),就分配較高權重,鼓勵學生把這種"旁門左道"的正確方法也納入自己的武器庫。
在數學實現上,權重的計算方式相當精巧。對於錯誤軌跡,老師困惑度越低,權重越高,具體通過對老師困惑度取倒數後在同組內做softmax歸一化得到。對於正確軌跡,學生困惑度越高,權重越高,通過對學生困惑度直接做softmax歸一化得到。兩種權重都在同一道題的多條推理過程組內進行歸一化,這樣可以自動適應不同題目之間的難度差異,避免簡單題和難題的權重分布不可比。這套雙路徑自適應加權機制被研究團隊稱為DPAW(Dual-Perspective Adaptive Weighting,雙視角自適應加權)。
整個SCOPE的目標函數把兩條路徑整合在一起:對於同一道題,正確軌跡的加權最大似然損失和錯誤軌跡的加權蒸餾損失共同構成總損失,在整個數據集上取期望進行優化。
**四、實驗結果:六大數學競賽題庫的全面檢驗**
研究團隊在六個高難度數學推理基準上測試了SCOPE,包括MATH500、AIME24(2024年美國數學邀請賽)、AIME25(2025年美國數學邀請賽)、AMC2023(2023年美國數學競賽)、Minerva和OlympiadBench(奧林匹克競賽題庫)。
測試採用了兩個不同的學生-老師配對:第一組是DeepSeek-R1-Distill-Qwen-1.5B(學生)配Skywork-OR1-Math-7B(老師),第二組是Qwen3-1.7B-Base(學生)配Qwen3-8B-Instruct(老師)。所有模型都在DeepMath數據集上訓練,並與三種基線方法(GRPO強化學習、離線知識蒸餾KD、在線蒸餾OPD)進行比較。
評估指標分兩種:Avg@32代表給AI32次機會時的平均正確率,衡量AI的穩定表現;Pass@32代表32次中至少一次正確的比率,衡量AI的能力上限和思維多樣性。
在第一組實驗(DeepSeek-R1-Distill-Qwen-1.5B)中,SCOPE在Avg@32上全面領先。在AIME24上,標準OPD達到40.2%,而SCOPE提升到42.7%,相對提升6.22%。在AIME25上,SCOPE達到30.4%,比OPD的28.9%相對提升5.19%。在AMC23上提升更為明顯,從75.9%提升到80.9%,相對提升6.59%。在OlympiadBench上,SCOPE從44.9%提升到49.7%,相對提升高達10.69%。綜合六個基準,SCOPE的平均Avg@32達到55.2%,比OPD的52.3%相對提升5.54%,比GRPO的49.6%提升更多。
在Pass@32指標上,SCOPE同樣全面占優。這一點在第二組實驗(Qwen3-1.7B-Base這個原始基礎模型)上體現得尤為突出。GRPO讓這個基礎模型的Pass@32幾乎沒有提升甚至在部分基準上退步,KD則導致嚴重下降,OPD有所改善,但SCOPE實現了最強的提升。以AIME25為例,基礎模型Pass@32為20.7%,GRPO提升到24.5%,OPD提升到29.7%,SCOPE則達到35.6%,相對於OPD提升了19.87%。這充分說明SCOPE在保持甚至提升思維多樣性方面的獨特優勢。
從訓練動態來看,三種方法呈現出截然不同的曲線。GRPO的策略熵(衡量AI思維多樣性的指標)隨著訓練持續下降,這直接導致了Pass@32的劣化。OPD和SCOPE都能維持較高的策略熵,說明它們不會過度壓縮AI的思維空間。但OPD在準確率上的提升很快遇到瓶頸並停滯,而SCOPE的Avg@32則持續穩健上升,始終領先。在Pass@k的擴展曲線上,GRPO和OPD都在k增大時表現出收益遞減,而SCOPE的曲線保持良好的上升趨勢,在k=32時仍有明顯優勢。
**五、消融實驗:每一個設計都有其存在的理由**
為了驗證SCOPE每個組件的必要性,研究團隊做了一系列"拆零件"實驗,在AIME24和AIME25上測試移除或反轉各個組成部分的效果。
移除整個DPAW加權機制後,退化為均勻權重的版本,AIME24的Avg@32從42.7%降到39.9%,AIME25的Pass@32從50.9%大幅跌到45.7%。這說明忽視信號質量差異的均勻加權策略確實會造成顯著的性能損失。
單獨移除學生引導權重(即對正確軌跡不再按困惑度加權),AIME24的Pass@32從77.9%跌到74.1%,這直接驗證了"放大非常規正確路徑"對保持思維多樣性的關鍵作用。把學生引導權重的方向反過來(高困惑度軌跡反而給低權重),Pass@32也從77.9%降到77.1%,進一步證明權重方向的正確性至關重要。
單獨移除老師引導權重(即對錯誤軌跡不再按老師困惑度加權),AIME24的Avg@32從42.7%降到41.8%,AIME25的Pass@32也有所下降。把老師引導權重方向反過來(老師越困惑越給高權重,相當於主動學習噪音),情況更為嚴重:AIME24的Avg@32暴跌到38.6%,甚至低於不用任何加權的版本。這個結果極為有力地證明:如果不加甄別地讓學生模仿老師在混亂前綴下的輸出,不僅沒有幫助,反而會大幅降低性能。
**六、計算代價:多了多少開銷?**
任何新方法都要面對"值不值得"的考量。研究團隊坦誠地列出了每步訓練的時間分解。GRPO的每步總時間約459秒,OPD約227.5秒,SCOPE約641.9秒。SCOPE比GRPO慢約40%,主要多出的時間是老師模型打分(200秒),而基礎的生成、舊策略概率計算、獎勵計算、模型更新等步驟與GRPO相差無幾。
研究團隊指出,目前的實現是"同步架構"——輪流進行生成和老師打分,二者沒有重疊。如果改用"異步架構"(讓老師打分和下一批生成同時進行),理論上時間開銷可以與GRPO持平。換句話說,SCOPE目前的時間代價很大程度上是工程實現上的優化空間,而非方法本身的固有缺陷。
**七、權重溫度的影響:鬆緊要適度**
研究團隊還測試了權重計算中溫度參數τ的影響。τ=0.5時權重分布過於尖銳,過度集中在極端困惑度的樣本上,反而引入了極端樣本的噪聲,整體性能不如τ=1.0。τ=2.0時權重分布過於平坦,幾乎退化為均勻權重,失去了自適應加權的意義,重新陷入了均勻OPD的種種問題。τ=1.0在AIME24、AIME25和AMC23三個基準上均表現最好,成為默認配置。
歸根結底,SCOPE所做的事情說起來並不複雜:在AI訓練這個"模擬考試"的過程中,針對做錯的題目,只在老師能看懂學生哪裡錯了的時候才讓學生認真學老師的糾正;針對做對的題目,優先讓學生把那些"運氣好走對了彎路"的非常規解法也學紮實,而不是一遍遍重複已經熟練的套路。兩件事合在一起,讓AI既能穩定答對題,又能保持開闊的思維空間,不至于越練越"偏科"。
這項研究的意義,在於它揭示了一個被長期忽視的問題:訓練數據的信號質量並非均勻的,不同推理軌跡對模型的價值天差地別。盲目地一視同仁,不僅效率低下,還會積累訓練噪音,最終導致模型能力的全面萎縮。SCOPE提供的這套分類處理、按質加權的思路,有望成為未來大模型訓練流程中的一個標準化組件,幫助下一代AI在更少的計算資源下達到更高的推理能力和更強的靈活性。對於任何對大語言模型訓練感興趣的讀者,通過arXiv:2604.10688都能找到完整的方法細節和實驗數據。
---
Q&A
Q1:SCOPE框架是什麼,和普通的AI訓練方法有什麼區別?
A:SCOPE是一種針對大語言模型推理訓練的雙路徑自適應框架。普通訓練方法對所有推理過程一視同仁,不管老師AI自己是否能看懂學生的錯誤推理,都強制讓學生去模仿老師的信號。SCOPE的區別在於把推理過程按對錯分成兩條路徑:對於錯誤推理,只在老師AI困惑度低(能看懂錯在哪裡)時才強化老師的糾正信號;對於正確推理,優先強化那些不尋常的解題路徑,避免思維單一化。
Q2:Pass@32和Avg@32這兩個指標分別衡量什麼?
A:Avg@32是給AI模型32次作答機會後,所有答案的平均正確率,反映模型的穩定性和整體水平。Pass@32則是32次中至少有一次答對的比率,反映模型的能力上限和思維多樣性。如果一個模型Pass@32很低,說明它的思維已經被"訓練"得很單一,即使多給機會也很難覆蓋到不同的解題路徑。SCOPE的一個重要優勢就在於同時提升了這兩項指標。
Q3:為什麼讓AI模型學習老師的糾正信號有時候反而有害?
A:當學生AI的推理過程本身邏輯混亂時,老師AI被迫從這段混亂內容接著往下想,就像被強制從一篇錯誤百出的作文中間接著續寫,老師自己也會陷入困惑,給出的下一步預測會變得雜亂無章。如果強迫學生AI去模仿老師在這種"困惑狀態"下的輸出,等於是把噪音當信號來學習,不僅沒有糾正錯誤,反而會讓模型越訓練越混亂。SCOPE通過老師困惑度加權,主動把這類有害信號的權重壓到接近零來規避這個問題。






