這項由小紅書技術團隊與中國科學院自動化研究所聯合開展的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.11609。感興趣的讀者可通過該編號在arXiv平台查閱完整原文。
當你輔導一個孩子解數學題時,你可能遇到過這樣的困境:如果你提前把答案告訴他,他往往只會機械地套用你給出的那條路徑,完全不願意自己動腦筋探索其他解法。這種情況下,告訴他答案反而害了他——因為他失去了獨立思考的機會。現如今,AI在學習數學的時候,也掉進了完全相同的陷阱。
研究團隊發現,當前一種流行的AI訓練方法叫做"自蒸餾"(self-distillation),其思路聽起來很聰明:讓AI自己既當學生又當老師,給老師版本看正確答案,然後讓學生版本向老師學習。然而在數學推理這個領域,這種方法在多個主流AI模型上幾乎全軍覆沒,表現甚至比不用這種方法的基線還差。這是為什麼?又該怎麼修?
研究團隊提出了一個反直覺的解決方案:既然向老師學習會有問題,那就反著來——主動遠離老師的做法。這套方法被命名為"反自蒸餾"(Anti-Self-Distillation,簡稱AntiSD)。在五個規模從40億到300億參數不等的AI模型上,AntiSD不僅讓模型以快2到10倍的速度達到原先的訓練效果,最終準確率更是最多提升了11.5個百分點。
一、老師知道答案,反而害了學生
要理解這個問題的根源,先從"自蒸餾"的工作原理說起。在標準的強化學習訓練中,AI會不斷嘗試解題,每次答對就得一分,答錯就不得分。這種方式就像給孩子做判斷題——只知道對錯,不知道哪一步做錯了,學習效率很低。
自蒸餾的出現正是為了解決這個問題。它的做法是:拿同一個AI模型扮演兩個角色——"學生版本"正常解題,"老師版本"則在看過正確答案之後,對學生寫的每一個字詞重新評分。學生版本再向老師版本學習,從而獲得比單純對錯反饋更細緻的指導信號。
聽起來很合理,對吧?但研究團隊發現了一個致命的結構性缺陷。他們分析了老師版本對每一個詞的態度,結果發現了一個清晰的兩極分化模式。
當老師版本看過正確答案之後,它對某些詞語會變得極度自信——比如"因此"、"代入"、"成立"這類詞,因為它已經知道推導方向是對的,這些詞在正確推導中自然而然就會出現。研究團隊把這類詞稱為"走捷徑的詞"。與此同時,老師版本對另一類詞則變得特別排斥——比如"等等"(Wait)、"或許"(Maybe)、"換個角度"(Alternatively)。這些詞代表著重新審視問題、探索多種可能的思維過程。但老師版本已經知道正確答案了,自然覺得這些"猶豫的詞"沒有必要。
於是標準自蒸餾的實際效果變成了:讓AI學會避開探索性思維,直奔它認為正確的路徑。這在數學上是災難性的,因為複雜數學題恰恰需要大量的"等等,讓我換個思路試試"。這也解釋了為什麼研究者們普遍觀察到一個現象:用自蒸餾訓練的AI,回答會越來越短——不是因為它變聰明了,而是因為它被訓練成了不再探索。
研究團隊用一個資訊論工具——逐點互資訊(Pointwise Mutual Information,PMI)——嚴格證明了這個分析。簡單來說,這個工具衡量的是"知道了答案之後,某個詞出現的概率是升高了還是降低了"。升高的詞就是"走捷徑的詞",降低的詞就是"探索性的詞"。標準自蒸餾獎勵前者、懲罰後者,方向完全錯了。
二、反著學:遠離老師,反而找到自己的路
找到了問題所在,修復思路就直接了當:既然老師的信號方向錯了,那就反過來用。
標準自蒸餾是讓學生往老師靠近,AntiSD則是讓學生主動往老師的反方向走。用數學語言表達就是:原來是"最小化學生和老師之間的差異",現在變成了"最大化學生和老師之間的差異"。這一字之差,讓每個詞的信號方向全部翻轉——原來被獎勵的"走捷徑的詞"現在受到壓制,原來被懲罰的"探索性詞語"現在得到鼓勵。
這有點像考試備考時的一個反常策略:與其死記老師給的標準答案,不如刻意練習那些老師沒有強調、但自己容易想不到的解題路徑。
不過,單純反向學習會帶來一個新問題:沒有一個天然的"停止時機"。原來向老師靠近是有終點的——靠得足夠近就停了。但反向遠離不一樣,理論上可以一直遠下去直到出問題。為此,研究團隊引入了兩個附加設計。
第一個是選擇更合適的"差異度量方式"。研究團隊選擇了詹森-香農散度(Jensen-Shannon Divergence,JSD),而非另一種常見的KL散度。這裡有個重要的工程考量:在實際訓練數據中,"探索性詞語"出現的頻率比"走捷徑的詞語"更高,而且有些極端情況下的信號值會達到負20以下,非常誇張。JSD的數學特性能自動給探索性詞語那一側的信號設置一個上限,避免極端值主導整個訓練過程。走捷徑那一側則沒有上限,確保極端的走捷徑行為受到強力壓制。
第二個是"熵觸發開關"。當老師版本自己也變得過度自信——比如它已經完全收斂到某個固定模式,每個詞都確定無疑——這時候老師和學生之間的差異信號就不再有資訊價值,都是噪音了。研究團隊設計了一個自動監控機制,持續追蹤老師版本每個詞位置上的"不確定程度"(用資訊熵衡量)。一旦這個不確定程度跌破某個閾值,就把反自蒸餾的訓練信號關掉;等老師的不確定程度恢復正常,再重新開啟。這種設計參考了電子電路中的"施密特觸發器"原理,能有效避免在臨界點附近反覆開關抖動。
整個方法的實現非常輕量。只需要在原有的訓練流程中,多做一次帶有正確答案的前向推理(forward pass),用來計算老師版本對每個詞的概率,然後根據公式算出每個詞的權重,加到原有的訓練信號里就行了。沒有額外的模型,沒有額外的數據,計算開銷幾乎可以忽略。
三、實驗結果:效率和準確率雙雙飆升
研究團隊在五個主流開源AI模型上進行了完整測試,涵蓋Qwen3-8B、Qwen3-4B-IT-2507、Olmo3-7B-IT、Olmo3-7B-TK和Qwen3-30B-A3B,參數規模從40億到300億不等。訓練數據使用了DAPO-Math-17k這個數學題數據集,共訓練200步。評估則在AIME 2024、2025、2026(美國數學邀請賽)、HMMT 2025(哈佛-MIT數學競賽)和MinervaMath五個基準上進行。
結果非常一致地呈現出三個規律。
第一個規律是"點火速度"大幅提升。AntiSD從訓練第一步就能提供有意義的逐詞信號,不需要等待稀疏的對錯反饋慢慢累積。在Qwen3-4B-IT-2507這個模型上,AntiSD僅用大約30步就達到了標準GRPO訓練需要150步才能達到的訓練獎勵水平。換算成倍數,AntiSD在不同模型上達到GRPO基線準確率的速度是後者的2到10倍。對於研究者來說,訓練成本大幅下降意味著可以用同樣的算力探索更多方向。
第二個規律是"最終準確率"全面提升。在所有五個模型上,AntiSD的最終平均準確率都超過了標準GRPO。提升幅度從最小的2.1個百分點(Olmo3-7B-TK,這個模型的基線本來就已經很強)到最大的11.5個百分點(Qwen3-8B)。在最難的HMMT 2025競賽題上,Qwen3-8B的得分從39.2%提升到了54.4%,提升幅度達到15個百分點。
為了驗證提升不是靠"押寶"少數幾道題來的,研究團隊還測試了pass@k指標,也就是用32次機會來回答同一道題,看能解出多少道題。AntiSD在32次機會的寬鬆條件下依然領先GRPO大約7到10個百分點,說明它確實解鎖了GRPO根本無法解決的題目,而不是靠減少隨機性來湊分。
第三個規律是"標準自蒸餾全面崩潰"。在所有五個模型上,使用正向自蒸餾的結果都比不用自蒸餾的基線差,有時差距驚人——Qwen3-8B上,標準自蒸餾的平均分是30.6,而不用的是57.4,差了將近27個百分點。這證實了之前理論分析的預測:把有答案的老師的信號方向用錯了。
研究團隊還做了一個有意思的延伸實驗:在代碼編寫任務上,AntiSD同樣讓Qwen3-8B在HumanEval+上提升1.2個百分點、在MBPP+上提升2.3個百分點。雖然提升幅度沒有數學任務那麼大,但方向完全一致,說明這個方法的有效性不局限於數學。
四、拆解每個零件,哪個最重要
為了搞清楚到底是哪個設計起了關鍵作用,研究團隊做了詳細的消融實驗——也就是一次只改變一個設計選擇,看效果如何變化。
其中有一個實驗最能說明問題:如果把老師的正確答案資訊完全去掉,只讓模型基於自己的概率來反向學習,會怎樣?結果是三個模型無一例外地在大約70步內徹底崩潰——訓練獎勵歸零,回答越來越長直到超出上限,模型進入無法恢復的死循環。這清楚地說明,AntiSD有效的關鍵不是"反向學習"這個動作本身,而是"以老師和學生之間的差異"作為信號來反向學習。去掉老師的正確答案,信號就沒有了依託,反而會放大模型原本的任何偏向,形成正反饋崩潰。
另一個有趣的發現是關於熵觸發開關的。在Qwen3系列模型上,去掉開關後,模型確實先跑得更快——在大約40步時就達到了0.97的訓練獎勵——但隨即在90步左右因為老師版本過度自信而崩潰。而在Olmo3-7B-IT模型上,同樣去掉開關,卻能撐過全程200步而不出問題。差異來自於這兩類模型的初始資訊熵水平:Qwen3模型起步時每個詞的不確定程度大約是0.4納特,距離"完全確定"的臨界點不遠;Olmo3模型起步更高,有足夠的餘量不需要開關保護。這說明開關起到的是"跨模型保險"的作用,而非針對某個特定模型調整的參數。
在具體的數學形式選擇上,研究團隊比較了JSD和KL散度的反向版本。結果顯示,用KL散度的反向版本在Qwen3-4B-IT-2507上直接失敗了,平均分只有49.5,不僅沒有超過GRPO基線,甚至在整個訓練過程中都無法穩定提升。這驗證了之前的分析:KL散度在探索性詞語那一側沒有上限,極端信號值過大,導致訓練不穩定。
此外,研究團隊還測試了"加性合併"和"乘性合併"兩種方式把AntiSD的信號加入原有訓練信號中。加性方式效果更好,理由也很直覺化:在對錯信號很弱的情況下——比如模型面對一道極難的題,幾乎所有嘗試都失敗了——乘性方式會把AntiSD的信號一起縮小到接近零,恰恰在最需要探索性引導的時候失去了它的作用。加性方式則不受此影響,始終保持獨立的貢獻。
研究團隊還驗證了一個實用場景:能不能在一個已經用標準方法訓練飽和的模型上,再疊加AntiSD?他們從Qwen3-8B的標準訓練終點重新出發,只再跑50步AntiSD,結果在30步內就基本追上了從零開始訓練AntiSD整整200步的效果。這說明AntiSD的信號對已經很強的模型依然有價值——它照亮的是那些靠對錯反饋永遠無法抵達的角落。
五、為什麼這件事比看起來更重要
從技術上來講,AntiSD實際上提供了一個不需要人工標註、不需要額外模型的"逐步獎勵信號"。研究團隊在論文中證明了,把每一步的信號加總起來,恰好等於"在知道正確答案之後,對整個回答的綜合評價"。這意味著這個逐步信號在理論上不會改變最優策略的集合,只是幫助更快、更準確地找到那些最優策略。
更深層的意義在於,這項研究從一個實驗失敗開始——自蒸餾在數學上不管用——然後通過精確的理論分析找到了失敗的根源,再針對根源設計了一個最小改動的修複方案。整個過程是標準的科學推進路徑,而得到的結論出人意料地乾淨:只需要翻轉一個符號,加上一個自動觸發的保險,就能讓一個普遍失敗的方法變成一個系統性成功的方法。
說到底,這項研究揭示的是一個更普遍的道理:在學習複雜推理的時候,知道"應該往哪裡走"並不總是好事,有時候反而需要保護那些"還不確定要往哪裡走"的時刻。探索本身就是價值的來源,而任何會壓制探索的訓練信號,都可能在無意間把模型訓練成了一個只會背捷徑的優等生,而不是真正會思考的問題解決者。
當前研究的評估範圍主要集中在數學推理,以及一個初步的代碼任務測試。研究團隊也坦誠,AntiSD的理論分析描述的是每一步的局部信號特性,而非整個訓練過程的全局收斂保證。多輪對話、更大規模的模型,以及更豐富的特權資訊形式,都是值得繼續探索的方向。有興趣深入了解具體數學推導和實驗細節的讀者,可以通過arXiv:2605.11609查閱完整論文。
---
Q&A
Q1:AntiSD的"反自蒸餾"為什麼反向學習老師反而會更好?
A:標準自蒸餾讓AI向看過答案的老師靠近,但老師知道答案後會偏愛"結論性詞彙"、壓制"探索性詞彙",導致AI越來越不會獨立探索。AntiSD把這個信號方向翻轉,主動壓制"走捷徑詞彙"、鼓勵"探索性詞彙",反而幫助AI保留了解複雜題目所需的多路徑搜索能力。
Q2:AntiSD訓練速度快2到10倍,意味著什麼?
A:意味著同樣的算力和時間可以訓練出更強的模型,或者用更少的資源達到原來的效果。對於需要大量疊代的AI研究團隊來說,這種效率提升直接降低了訓練成本,也讓更快速地探索不同方案成為可能。
Q3:AntiSD方法是否可以用在已經訓練好的AI模型上繼續提升?
A:可以。研究團隊驗證了在一個已經用標準方法訓練到飽和的Qwen3-8B模型上,只需額外運行30步AntiSD,就基本追上了從頭訓練AntiSD整整180步的效果。說明這個方法可以作為"增強補丁"疊加在現有模型上,而不必從零開始重新訓練。






