這項由麥吉爾大學、魁北克人工智慧研究所(Mila)和德克薩斯大學奧斯汀分校聯合開展的研究,以預印本形式於2026年6月7日發布於arXiv平台,論文編號為arXiv:2606.08432。研究團隊提出了一種名為"軌跡精煉蒸餾"(Trajectory-Refined Distillation,簡稱TRD)的新方法,專門針對大型語言模型訓練中一個長期被忽視的結構性缺陷,並在多個頂級數學競賽題目測試集上取得了顯著的性能提升。
**一、從一個讓AI頭疼的老問題說起**
要理解這篇研究,先考慮這樣一個場景:你有一個剛學做菜的徒弟,正在練習炒番茄炒蛋。你作為師傅站在旁邊,希望通過實時點評來幫助他進步。問題來了——當徒弟一開始就把蔥和蒜放錯了順序,導致鍋里的味道完全跑偏,你在這道菜的每一步之後給出的點評,還有意義嗎?
這正是當前AI大模型訓練中一個真實存在的困境。在AI領域,"蒸餾"是一種常見的訓練手段:讓一個能力較弱的"學生模型"去模仿一個能力較強的"教師模型",從而快速提升自身水平。最近幾年流行的一種做法叫做"在線蒸餾"(On-Policy Distillation,簡稱OPD),它的特別之處在於:教師不是在自己寫好的標準答案上給學生批改,而是跟著學生實際走的解題路徑,逐字逐句地給出指導。這樣做的優勢是顯而易見的——教師的點評是量身定製的,學生能獲得極為密集的反饋信號。Qwen3、DeepSeek-v4、MiMo-v2等當下最受關注的大模型,都在訓練流程中採用了這種策略。
然而,這套系統有一個致命的漏洞,而這篇研究正是為了找出並修復它。
**二、前綴失效:當徒弟一開始就走錯了路**
研究團隊將這個漏洞命名為"前綴失效"(Prefix Failure)。要理解它,繼續用廚房的比喻來說明。
"前綴"在這裡指的是解題過程的前半段——學生模型在開始回答問題時走過的那段路。如果學生在解一道數學競賽題時,一開始就選錯了解題策略,比如用了一個根本行不通的方法,那麼從那個錯誤節點往後,整條路就已經偏了。這就是前綴失效:學生走上了一條"死路",無論後面怎麼努力,也很難不回頭就走到正確答案那裡去。
在線蒸餾的問題就在這裡:即便是面對這樣一條已經走偏的路,教師模型還是要一步一步地沿著學生的錯誤路徑,給出每一步的"最優建議"。這就像你作為師傅,徒弟的番茄炒蛋已經放錯了順序、火候全錯,你還要站在一鍋糊掉的菜旁邊,認真地點評說"這一步你應該多放點鹽"——這個建議不能說沒道理,但對於挽救這道菜已經沒有實質意義了。
更麻煩的是,當前綴已經失效,教師模型自身也會陷入一種混亂狀態。它內心其實有兩種聲音:一種聲音說"按照現在的路繼續走吧,保持語義連貫",另一種聲音說"不對,要趕緊糾正回到正確答案那邊"。這兩種聲音同時存在,導致教師給出的指導信號變成了一種"雙峰混合"——一半在推著學生繼續錯下去,另一半在拉著學生往正確方向走。這兩種方向截然相反的力量疊加在一起,對學生模型來說等於是在傳遞一個嘈雜、矛盾的信號,甚至比沒有指導還要有害。
**三、為什麼在每個詞上修補都沒用**
面對這個問題,研究者們以前的思路是在"損失函數"上做文章——也就是調整每一步點評的權重。有人說高分差的地方要剪掉,有人說要放大特定類型的詞的權重,還有人提出各種重新加權的方案。這些方法都是在學生走過的那條錯誤路徑上,對每個詞的指導信號做微調。
研究團隊通過嚴謹的數學推導揭示了這些方法的根本局限性。他們用一組公式展示了一個關鍵對比:理想狀態下,教師的糾正應該是沿著一條"修正路徑"展開的——第一步糾正之後,第二步的建議應該基於第一步已經被糾正的狀態,第三步基於第二步……就像修路一樣,要一段接一段地重新鋪好。然而,在線蒸餾實際做的是:每一步的建議都是基於學生原來那條錯誤路徑的當前位置給出的。教師在t時刻建議"應該走這條正確的路",但到了t+1時刻,背景已經變成了學生沿著錯誤路又走了一步,教師只好在這個新的錯誤節點上再次建議"應該走正確的路"……如此反覆,教師一直在重複同一個"糾正起點"的建議,卻永遠無法真正給出"糾正之後下一步該怎麼走"的指導。
換句話說,這些基於詞語級別的修補方案,處理的是"應該給每個詞多大權重"的問題,但真正的問題根源在於"學生走的整條路就已經走偏了"。修補權重就像在一份做壞了的菜上撒更多或更少的調料,根本問題不在調料的多少,而在於整道菜從一開始就做錯了。
研究團隊還通過實驗數據驗證了這一判斷。他們發現,在訓練過程中,無論是正確還是錯誤的解題路徑,學生和教師的逐詞預測幾乎沒有差異——也就是說,教師在學生走錯的路上,幾乎給不出任何有價值的糾正信號。與此同時,教師在每個位置分配給"等等""其實""但是"等自我糾正詞語的概率質量高達總概率的6-8‰,而正確路徑上這個比例會下降到2‰以下。這意味著教師模型確實"知道"自己在一條錯誤路徑上,一直在嘗試觸發糾正,卻因為整個框架的結構性限制而無法真正完成糾正。
**四、軌跡精煉蒸餾:先修路,再導航**
研究團隊提出的解決方案在思路上非常直接:與其讓教師在學生走錯的路上一步步地掙扎,不如先讓教師把這條路重新走一遍,生成一條更好的路,再用這條更好的路來訓練學生。
這就是軌跡精煉蒸餾(TRD)的核心思想。具體來說,整個流程分為兩步。第一步,讓學生模型按照自己的方式解一道題,得到一條原始的解題過程,稱為"原始軌跡"。第二步,把這條原始軌跡交給教師模型,讓教師參考學生的思路,但對其中的錯誤部分進行修正,生成一條更好的"精煉軌跡"。然後,用這條精煉軌跡來訓練學生。
這個過程的精妙之處在於兩個方面的平衡。一方面,精煉軌跡是以學生的原始路徑為起點生成的,所以它不會偏離學生的"認知習慣"太遠——畢竟教師也是在看了學生的解法之後才開始修改的,改出來的版本依然保留了學生原有思路的大體框架,只是修正了關鍵錯誤。這樣一來,這條精煉軌跡就落在學生的"能力支持範圍"之內,不會出現教師給出的路對學生來說完全陌生、根本學不了的情況。另一方面,精煉軌跡從根本上繞開了前綴失效問題——既然教師重新生成了整條路,那麼就不存在"沿著一條錯路繼續點評"的困境了,教師在精煉軌跡上給出的每一步指導,都是基於一條連貫、正確的路徑展開的,梯度信號不再碎片化。
這就像:與其讓師傅站在徒弟做爛的菜旁邊硬撐,不如師傅親自下廚,參考徒弟的做法風格,重新做一遍,讓徒弟通過觀摩這道"改良版"的菜來學習。
TRD還有一個額外的收益——即便學生原來走的路是正確的,精煉軌跡也依然有價值。因為教師在參考學生的正確解法後,可能會給出一條邏輯上等價但更簡潔、更優雅的解法。數據顯示,經過精煉的軌跡,正確解法的長度平均壓縮了約九倍(從7700個詞縮減到880個詞左右)。也就是說,TRD不僅能糾錯,還能讓學生接觸到更多樣化、更高效的解題方式,拓寬學生的"解題視野"。
**五、自我蒸餾:只用一個模型也能玩**
研究中還提到了另一種更節省資源的變體,叫做"在線自蒸餾"(On-Policy Self-Distillation,簡稱OPSD)。在標準的在線蒸餾中,你需要一個單獨的、更強大的教師模型。但自蒸餾的思路是:同一個模型,在"普通模式"下作為學生解題,在"開掛模式"下作為教師——也就是讓它在解題時額外看到正確答案,然後用這個"開掛狀態"的輸出來指導"普通模式"下的自己。
TRD可以無縫地應用到這種自蒸餾場景中。在自蒸餾版本的TRD里,精煉軌跡的生成過程是:給同一個模型看學生的原始解題路徑和正確答案,讓它生成一條精煉後的解法,然後用這條精煉解法來訓練自己的"普通模式"。這種設計的好處在於,精煉出來的路徑天然地更貼近學生模型自身的能力分布,因為教師和學生本就是同一個模型的兩種狀態。
**六、用數學競賽題目檢驗真實效果**
研究團隊在多個極具挑戰性的數學競賽題目數據集上進行了系統性實驗,這些數據集包括AIME24、AIME25(美國數學邀請賽歷年真題)、HMMT25(哈佛-麻省理工數學邀請賽)、BeyondAIME,以及難度最高的AMOBench(專門用來測試模型在高中數學競賽中表現的基準集,共39道題目)。此外,在標準在線蒸餾的實驗框架下,代碼生成任務也納入了評估範圍,使用了HumanEval+、MBPP+和LiveCodeBench等代碼生成基準。
實驗使用的基礎模型來自阿里雲Qwen3系列,包括Qwen3-1.7B、Qwen3-4B-Instruct和Qwen3-8B三個規模,在標準蒸餾實驗中以Qwen3-8B作為獨立教師模型,在自蒸餾實驗中教師與學生共享同一模型參數。
評估指標採用Avg@16(每道題抽16次,計算通過率均值)和Pass@16(16次里至少有一次正確的比率)。前者衡量模型穩定解題的能力,後者衡量模型是否至少有能力解出這道題。
對比的基線方法包括四種主流的在線蒸餾變體:前向KL散度、帶截斷的前向KL散度(一種限制過大梯度的改良版本)、反向KL散度,以及帶Top-K截斷的反向KL散度(只保留教師最有把握的幾個詞的指導信號)。
在標準蒸餾實驗的Avg@16指標上,TRD在兩種學生規模的大多數基準上都達到或並列最高水平。對於較小的Qwen3-1.7B學生,在AIME24上的提升幅度達到+4.6個百分點。更能說明問題的是Qwen3-4B-Instruct這一組:幾乎所有基於原始錯誤軌跡的蒸餾變體都無法達到基礎模型的表現,而TRD不僅保住了基礎模型的能力,還在多個基準上實現了正向提升。這個對比直接印證了研究團隊的判斷:當學生本身已經足夠強時,基於錯誤路徑的逐詞指導反而會破壞學生已有的解題分布,而軌跡級別的精煉則提供了更安全的訓練目標。
Pass@16指標上,差距在最難的題目上體現得最為突出。在AMOBench這個難度最高的基準上,TRD為Qwen3-1.7B帶來了+5.1個百分點的提升,為Qwen3-4B-Instruct帶來了+12.8個百分點的提升。
在自蒸餾實驗中,結果同樣一致:TRD在所有五個數學基準上全部達到最高或並列最高的Avg@16,並且從未低於基礎模型水平,而其他四種對比方法中有三種在至少一個基準上出現了倒退。在Pass@16方面,Qwen3-8B在AMOBench上的提升幅度高達+20.5個百分點,相對提升約50%,而最強的基線方法停留在51.3%,TRD則達到了61.5%。
對比分析還揭示了一個有趣的現象:在相同的學生模型規模下,自蒸餾版TRD的Pass@16整體上略優於標準蒸餾版TRD。研究團隊認為,這部分是因為自蒸餾的精煉路徑通過同一模型生成,天然地更貼近學生的能力範圍,避免了教師與學生模型之間可能存在的風格差異或能力錯位問題。
**七、精煉軌跡有多不一樣**
研究團隊對訓練數據本身做了細緻的對比分析,這部分發現同樣很有價值。
精煉軌跡在通過率上顯著優於原始軌跡:在Qwen3-8B上,原始軌跡的正確率約為65.8%,精煉後提升至81.4%。從"原來錯了,精煉後對了"和"原來對了,精煉後錯了"的數量對比來看,前者約為後者的44倍,說明精煉過程主要起到了糾錯的作用,而非隨機擾動。大約四分之一到三分之一的原始錯誤路徑在經過精煉後仍然無法得到正確答案,這說明當原始路徑的錯誤程度超出了模型能夠修正的範圍,TRD也並非萬能的解藥,但在大多數情況下效果是正向的。
精煉軌跡更短,這帶來了額外的訓練效率提升。由於精煉後的解法更簡潔,用精煉軌跡訓練時,模型處理的序列更短,整體訓練時間反而減少了。在Qwen3-8B上,使用TRD的完整訓練流程(包括額外的精煉生成步驟)的總耗時(9小時20分鐘)與不使用TRD的標準自蒸餾(9小時40分鐘)幾乎相當,這意味著精煉生成的額外計算開銷被更短的訓練時間抵消了。
在測試時的行為分析上,研究團隊對AMOBench的39道題目各抽取了128條解題軌跡,分析TRD和普通在線蒸餾模型在這些題目上的表現差異。發現TRD模型的正確解法長度呈雙峰分布,存在一個約1萬詞的短解法峰值,這在普通蒸餾模型中是看不到的。這說明TRD讓模型學會了更簡潔的解題思路。在Pass@128指標上,TRD模型達到了53.8%,而普通蒸餾模型為46.7%,隨著採樣次數的增加,差距持續擴大。
最能體現TRD價值的,是對那23道基礎模型一次都解不出來的"極難題"的分析。在這些題目上,普通蒸餾方法的Pass@16為22%,而TRD達到了39%。這部分提升不是在原有能力基礎上的優化,而是真正擴展了模型能觸及的解題邊界,讓模型開始能夠處理以前根本無能為力的題目類型。
**八、代碼任務上的表現**
在代碼生成任務上,TRD在Avg@16指標上同樣超過所有對比基線,在HumanEval+上與最佳基線持平,在MBPP+上達到最高。但在LiveCodeBench這個難度最高的代碼基準上,所有方法(包括TRD)都無法超越基礎模型。研究團隊認為,這說明在極難的代碼任務上,當前使用的Qwen3-8B教師模型的精煉能力本身也存在上限,無法為這些超出其能力範圍的題目生成有效的精煉軌跡。這也指出了TRD方法的一個邊界條件:教師模型本身的能力是精煉質量的天花板。
**九、這項研究告訴我們什麼**
歸根結底,這項研究做了一件看似簡單卻很重要的事:它指出了一個大家都在用、但一直沒有人系統分析其結構性缺陷的訓練方法的漏洞,並提出了一個從根源處解決問題的方案。
對AI研究者來說,TRD提供了一種在不大幅增加計算成本的前提下,顯著提升在線蒸餾效果的思路。對普通用戶來說,這意味著未來的AI數學解題助手、代碼生成工具可能會因為類似TRD這樣的訓練改進而變得更加可靠——特別是在面對真正困難、複雜的問題時,模型走進"思維死胡同"的情況會減少,找到有效解法的概率會提高。
當然,這項研究也坦誠地指出了自身的局限。TRD需要額外生成精煉軌跡,雖然時間上基本與基線持平,但計算路徑更為複雜。更重要的是,TRD的效果高度依賴教師模型的精煉能力——如果教師模型本身也對某類問題束手無策,TRD就失去了其核心來源,也就是說,這套方法對於能力超越當前教師模型的題目類型,暫時還沒有解法。
這道"AI學生走錯路該怎麼辦"的難題,看來TRD提供了一個頗有說服力的答案:與其在錯誤路上反覆指點,不如先幫學生重走一遍,再開始教。感興趣深入了解的讀者,可以通過arXiv編號2606.08432查閱完整論文。
---
Q&A
Q1:前綴失效(Prefix Failure)具體是指什麼現象?
A:前綴失效是指AI學生模型在解題過程中,一開始就走上了一條錯誤的推理路徑,導致後續所有步驟都建立在錯誤基礎上,即使教師模型逐詞給出指導也很難糾正。這個問題的根源在於教師只能在學生已走過的錯誤路徑上逐步點評,而無法真正引導學生回到正確方向。
Q2:軌跡精煉蒸餾(TRD)與普通在線蒸餾方法相比,訓練成本會大幅增加嗎?
A:不會大幅增加。TRD確實需要額外的一步來生成精煉軌跡,但由於精煉後的解法通常比原始錯誤解法短得多(約壓縮九倍),實際的模型訓練時間大幅縮短,兩者相互抵消。實驗中Qwen3-8B使用TRD的總訓練時長(9小時20分鐘)與普通自蒸餾方法(9小時40分鐘)基本持平。
Q3:AMOBench上TRD為什麼提升幅度特別大?
A:AMOBench是測試集中難度最高的數學競賽基準,包含39道基礎模型經常無法解答的難題。正是在這類極難題目上,前綴失效問題最為嚴重,普通逐詞蒸餾幾乎無法提供有效指導。TRD通過軌跡級別的修正,讓模型能夠接觸到正確解法的完整推理路徑,從而在這類高難度題目上實現了近50%的相對提升。






