小紅書與中國科學院聯合出手：一個讓AI「反著學」的方法，讓數學推理能力飆升11.5分

這項由小紅書技術團隊與中國科學院自動化研究所聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.11609。感興趣的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

當你輔導一個孩子解數學題時，你可能遇到過這樣的困境：如果你提前把答案告訴他，他往往只會機械地套用你給出的那條路徑，完全不願意自己動腦筋探索其他解法。這種情況下，告訴他答案反而害了他——因為他失去了獨立思考的機會。現如今，AI在學習數學的時候，也掉進了完全相同的陷阱。

研究團隊發現，當前一種流行的AI訓練方法叫做"自蒸餾"（self-distillation），其思路聽起來很聰明：讓AI自己既當學生又當老師，給老師版本看正確答案，然後讓學生版本向老師學習。然而在數學推理這個領域，這種方法在多個主流AI模型上幾乎全軍覆沒，表現甚至比不用這種方法的基線還差。這是為什麼？又該怎麼修？

研究團隊提出了一個反直覺的解決方案：既然向老師學習會有問題，那就反著來——主動遠離老師的做法。這套方法被命名為"反自蒸餾"（Anti-Self-Distillation，簡稱AntiSD）。在五個規模從40億到300億參數不等的AI模型上，AntiSD不僅讓模型以快2到10倍的速度達到原先的訓練效果，最終準確率更是最多提升了11.5個百分點。

一、老師知道答案，反而害了學生

要理解這個問題的根源，先從"自蒸餾"的工作原理說起。在標準的強化學習訓練中，AI會不斷嘗試解題，每次答對就得一分，答錯就不得分。這種方式就像給孩子做判斷題——只知道對錯，不知道哪一步做錯了，學習效率很低。

自蒸餾的出現正是為了解決這個問題。它的做法是：拿同一個AI模型扮演兩個角色——"學生版本"正常解題，"老師版本"則在看過正確答案之後，對學生寫的每一個字詞重新評分。學生版本再向老師版本學習，從而獲得比單純對錯反饋更細緻的指導信號。

贊助商廣告

聽起來很合理，對吧？但研究團隊發現了一個致命的結構性缺陷。他們分析了老師版本對每一個詞的態度，結果發現了一個清晰的兩極分化模式。

當老師版本看過正確答案之後，它對某些詞語會變得極度自信——比如"因此"、"代入"、"成立"這類詞，因為它已經知道推導方向是對的，這些詞在正確推導中自然而然就會出現。研究團隊把這類詞稱為"走捷徑的詞"。與此同時，老師版本對另一類詞則變得特別排斥——比如"等等"（Wait）、"或許"（Maybe）、"換個角度"（Alternatively）。這些詞代表著重新審視問題、探索多種可能的思維過程。但老師版本已經知道正確答案了，自然覺得這些"猶豫的詞"沒有必要。

於是標準自蒸餾的實際效果變成了：讓AI學會避開探索性思維，直奔它認為正確的路徑。這在數學上是災難性的，因為複雜數學題恰恰需要大量的"等等，讓我換個思路試試"。這也解釋了為什麼研究者們普遍觀察到一個現象：用自蒸餾訓練的AI，回答會越來越短——不是因為它變聰明了，而是因為它被訓練成了不再探索。

研究團隊用一個資訊論工具——逐點互資訊（Pointwise Mutual Information，PMI）——嚴格證明了這個分析。簡單來說，這個工具衡量的是"知道了答案之後，某個詞出現的概率是升高了還是降低了"。升高的詞就是"走捷徑的詞"，降低的詞就是"探索性的詞"。標準自蒸餾獎勵前者、懲罰後者，方向完全錯了。

二、反著學：遠離老師，反而找到自己的路

找到了問題所在，修復思路就直接了當：既然老師的信號方向錯了，那就反過來用。

標準自蒸餾是讓學生往老師靠近，AntiSD則是讓學生主動往老師的反方向走。用數學語言表達就是：原來是"最小化學生和老師之間的差異"，現在變成了"最大化學生和老師之間的差異"。這一字之差，讓每個詞的信號方向全部翻轉——原來被獎勵的"走捷徑的詞"現在受到壓制，原來被懲罰的"探索性詞語"現在得到鼓勵。

贊助商廣告

這有點像考試備考時的一個反常策略：與其死記老師給的標準答案，不如刻意練習那些老師沒有強調、但自己容易想不到的解題路徑。

不過，單純反向學習會帶來一個新問題：沒有一個天然的"停止時機"。原來向老師靠近是有終點的——靠得足夠近就停了。但反向遠離不一樣，理論上可以一直遠下去直到出問題。為此，研究團隊引入了兩個附加設計。

第一個是選擇更合適的"差異度量方式"。研究團隊選擇了詹森-香農散度（Jensen-Shannon Divergence，JSD），而非另一種常見的KL散度。這裡有個重要的工程考量：在實際訓練數據中，"探索性詞語"出現的頻率比"走捷徑的詞語"更高，而且有些極端情況下的信號值會達到負20以下，非常誇張。JSD的數學特性能自動給探索性詞語那一側的信號設置一個上限，避免極端值主導整個訓練過程。走捷徑那一側則沒有上限，確保極端的走捷徑行為受到強力壓制。

第二個是"熵觸發開關"。當老師版本自己也變得過度自信——比如它已經完全收斂到某個固定模式，每個詞都確定無疑——這時候老師和學生之間的差異信號就不再有資訊價值，都是噪音了。研究團隊設計了一個自動監控機制，持續追蹤老師版本每個詞位置上的"不確定程度"（用資訊熵衡量）。一旦這個不確定程度跌破某個閾值，就把反自蒸餾的訓練信號關掉；等老師的不確定程度恢復正常，再重新開啟。這種設計參考了電子電路中的"施密特觸發器"原理，能有效避免在臨界點附近反覆開關抖動。

整個方法的實現非常輕量。只需要在原有的訓練流程中，多做一次帶有正確答案的前向推理（forward pass），用來計算老師版本對每個詞的概率，然後根據公式算出每個詞的權重，加到原有的訓練信號里就行了。沒有額外的模型，沒有額外的數據，計算開銷幾乎可以忽略。

三、實驗結果：效率和準確率雙雙飆升

贊助商廣告

研究團隊在五個主流開源AI模型上進行了完整測試，涵蓋Qwen3-8B、Qwen3-4B-IT-2507、Olmo3-7B-IT、Olmo3-7B-TK和Qwen3-30B-A3B，參數規模從40億到300億不等。訓練數據使用了DAPO-Math-17k這個數學題數據集，共訓練200步。評估則在AIME 2024、2025、2026（美國數學邀請賽）、HMMT 2025（哈佛-MIT數學競賽）和MinervaMath五個基準上進行。

結果非常一致地呈現出三個規律。

第一個規律是"點火速度"大幅提升。AntiSD從訓練第一步就能提供有意義的逐詞信號，不需要等待稀疏的對錯反饋慢慢累積。在Qwen3-4B-IT-2507這個模型上，AntiSD僅用大約30步就達到了標準GRPO訓練需要150步才能達到的訓練獎勵水平。換算成倍數，AntiSD在不同模型上達到GRPO基線準確率的速度是後者的2到10倍。對於研究者來說，訓練成本大幅下降意味著可以用同樣的算力探索更多方向。

第二個規律是"最終準確率"全面提升。在所有五個模型上，AntiSD的最終平均準確率都超過了標準GRPO。提升幅度從最小的2.1個百分點（Olmo3-7B-TK，這個模型的基線本來就已經很強）到最大的11.5個百分點（Qwen3-8B）。在最難的HMMT 2025競賽題上，Qwen3-8B的得分從39.2%提升到了54.4%，提升幅度達到15個百分點。

為了驗證提升不是靠"押寶"少數幾道題來的，研究團隊還測試了pass@k指標，也就是用32次機會來回答同一道題，看能解出多少道題。AntiSD在32次機會的寬鬆條件下依然領先GRPO大約7到10個百分點，說明它確實解鎖了GRPO根本無法解決的題目，而不是靠減少隨機性來湊分。

第三個規律是"標準自蒸餾全面崩潰"。在所有五個模型上，使用正向自蒸餾的結果都比不用自蒸餾的基線差，有時差距驚人——Qwen3-8B上，標準自蒸餾的平均分是30.6，而不用的是57.4，差了將近27個百分點。這證實了之前理論分析的預測：把有答案的老師的信號方向用錯了。

研究團隊還做了一個有意思的延伸實驗：在代碼編寫任務上，AntiSD同樣讓Qwen3-8B在HumanEval+上提升1.2個百分點、在MBPP+上提升2.3個百分點。雖然提升幅度沒有數學任務那麼大，但方向完全一致，說明這個方法的有效性不局限於數學。

贊助商廣告

四、拆解每個零件，哪個最重要

為了搞清楚到底是哪個設計起了關鍵作用，研究團隊做了詳細的消融實驗——也就是一次只改變一個設計選擇，看效果如何變化。

其中有一個實驗最能說明問題：如果把老師的正確答案資訊完全去掉，只讓模型基於自己的概率來反向學習，會怎樣？結果是三個模型無一例外地在大約70步內徹底崩潰——訓練獎勵歸零，回答越來越長直到超出上限，模型進入無法恢復的死循環。這清楚地說明，AntiSD有效的關鍵不是"反向學習"這個動作本身，而是"以老師和學生之間的差異"作為信號來反向學習。去掉老師的正確答案，信號就沒有了依託，反而會放大模型原本的任何偏向，形成正反饋崩潰。

另一個有趣的發現是關於熵觸發開關的。在Qwen3系列模型上，去掉開關後，模型確實先跑得更快——在大約40步時就達到了0.97的訓練獎勵——但隨即在90步左右因為老師版本過度自信而崩潰。而在Olmo3-7B-IT模型上，同樣去掉開關，卻能撐過全程200步而不出問題。差異來自於這兩類模型的初始資訊熵水平：Qwen3模型起步時每個詞的不確定程度大約是0.4納特，距離"完全確定"的臨界點不遠；Olmo3模型起步更高，有足夠的餘量不需要開關保護。這說明開關起到的是"跨模型保險"的作用，而非針對某個特定模型調整的參數。

在具體的數學形式選擇上，研究團隊比較了JSD和KL散度的反向版本。結果顯示，用KL散度的反向版本在Qwen3-4B-IT-2507上直接失敗了，平均分只有49.5，不僅沒有超過GRPO基線，甚至在整個訓練過程中都無法穩定提升。這驗證了之前的分析：KL散度在探索性詞語那一側沒有上限，極端信號值過大，導致訓練不穩定。

此外，研究團隊還測試了"加性合併"和"乘性合併"兩種方式把AntiSD的信號加入原有訓練信號中。加性方式效果更好，理由也很直覺化：在對錯信號很弱的情況下——比如模型面對一道極難的題，幾乎所有嘗試都失敗了——乘性方式會把AntiSD的信號一起縮小到接近零，恰恰在最需要探索性引導的時候失去了它的作用。加性方式則不受此影響，始終保持獨立的貢獻。

贊助商廣告

研究團隊還驗證了一個實用場景：能不能在一個已經用標準方法訓練飽和的模型上，再疊加AntiSD？他們從Qwen3-8B的標準訓練終點重新出發，只再跑50步AntiSD，結果在30步內就基本追上了從零開始訓練AntiSD整整200步的效果。這說明AntiSD的信號對已經很強的模型依然有價值——它照亮的是那些靠對錯反饋永遠無法抵達的角落。

五、為什麼這件事比看起來更重要

從技術上來講，AntiSD實際上提供了一個不需要人工標註、不需要額外模型的"逐步獎勵信號"。研究團隊在論文中證明了，把每一步的信號加總起來，恰好等於"在知道正確答案之後，對整個回答的綜合評價"。這意味著這個逐步信號在理論上不會改變最優策略的集合，只是幫助更快、更準確地找到那些最優策略。

更深層的意義在於，這項研究從一個實驗失敗開始——自蒸餾在數學上不管用——然後通過精確的理論分析找到了失敗的根源，再針對根源設計了一個最小改動的修複方案。整個過程是標準的科學推進路徑，而得到的結論出人意料地乾淨：只需要翻轉一個符號，加上一個自動觸發的保險，就能讓一個普遍失敗的方法變成一個系統性成功的方法。

說到底，這項研究揭示的是一個更普遍的道理：在學習複雜推理的時候，知道"應該往哪裡走"並不總是好事，有時候反而需要保護那些"還不確定要往哪裡走"的時刻。探索本身就是價值的來源，而任何會壓制探索的訓練信號，都可能在無意間把模型訓練成了一個只會背捷徑的優等生，而不是真正會思考的問題解決者。

當前研究的評估範圍主要集中在數學推理，以及一個初步的代碼任務測試。研究團隊也坦誠，AntiSD的理論分析描述的是每一步的局部信號特性，而非整個訓練過程的全局收斂保證。多輪對話、更大規模的模型，以及更豐富的特權資訊形式，都是值得繼續探索的方向。有興趣深入了解具體數學推導和實驗細節的讀者，可以通過arXiv:2605.11609查閱完整論文。

贊助商廣告

---

Q&A

Q1：AntiSD的"反自蒸餾"為什麼反向學習老師反而會更好？

A：標準自蒸餾讓AI向看過答案的老師靠近，但老師知道答案後會偏愛"結論性詞彙"、壓制"探索性詞彙"，導致AI越來越不會獨立探索。AntiSD把這個信號方向翻轉，主動壓制"走捷徑詞彙"、鼓勵"探索性詞彙"，反而幫助AI保留了解複雜題目所需的多路徑搜索能力。

Q2：AntiSD訓練速度快2到10倍，意味著什麼？

A：意味著同樣的算力和時間可以訓練出更強的模型，或者用更少的資源達到原來的效果。對於需要大量疊代的AI研究團隊來說，這種效率提升直接降低了訓練成本，也讓更快速地探索不同方案成為可能。

Q3：AntiSD方法是否可以用在已經訓練好的AI模型上繼續提升？

A：可以。研究團隊驗證了在一個已經用標準方法訓練到飽和的Qwen3-8B模型上，只需額外運行30步AntiSD，就基本追上了從頭訓練AntiSD整整180步的效果。說明這個方法可以作為"增強補丁"疊加在現有模型上，而不必從零開始重新訓練。