這項由清華大學、慕尼黑工業大學、南洋理工大學、不列顛哥倫比亞大學、德克薩斯大學奧斯汀分校及德國ELLIS研究所、馬克斯普朗克智能系統研究所聯合開展的研究,以預印本形式於2026年6月發布,論文編號為arXiv:2606.18195,感興趣的讀者可通過該編號查閱完整原文。
**訓練AI的那些煩惱**
教一個AI學會推理,就像培訓一名新員工。你給他出題,他答完之後,你只告訴他"對了"或者"錯了"——這種方式叫做強化學習,靠獎勵信號驅動學習。問題在於,大多數時候這個員工都答錯了,而你只說了句"錯",他並不知道哪一步走偏了,只能反覆碰壁、慢慢摸索。這就是所謂"稀疏獎勵"的困境,費時費力,效率極低。
一種更聰明的做法是找一位有經驗的前輩,讓他在員工答題的每一步都給出詳細點評——"這裡的思路對了,那裡推斷有點問題"——這種方式叫做"在線蒸餾",靠密集的過程指導代替結果獎勵。可這需要一位更強的前輩模型,而找到這樣一位現成的前輩並不容易,成本也很高。
於是研究者想到了一個絕妙的折中方案:讓AI自己當自己的老師。這個思路叫做"在線自蒸餾",簡稱OPSD——模型同時扮演學生和老師兩個角色,學生負責解題,老師則掌握一些額外的"內幕資訊"來引導學生。這種方法在普通的自回歸語言模型(也就是像ChatGPT那類逐字生成文本的模型)上已經被證明相當有效。
然而,這批研究者把目光對準了另一類正在崛起的AI模型——擴散語言模型,並發現了一個被忽視的空白:現有的自蒸餾方法完全是為逐字生成設計的,硬搬到擴散語言模型上根本行不通。於是他們從頭設計了一套專屬方案,取名d-OPSD,並在四項推理任務上驗證了它的威力:同樣的效果,只需要原來十分之一的訓練步數。
**一、擴散語言模型究竟是什麼?一種"從模糊到清晰"的生成方式**
要理解這項研究的核心,得先搞清楚擴散語言模型和普通語言模型的根本區別。
普通的大語言模型,比如GPT系列,生成文字的方式就像一位打字員,從左到右,一個字一個字往下敲,每次只能看到已經打出來的內容,根據這些內容預測下一個字應該是什麼。這種方式有個天然的限制:它無法回頭修改,也無法同時考慮前後文的雙向關係,每一個字的決策都只依賴左邊的內容。
擴散語言模型則完全不同。它的生成過程更像是一位版畫師從一張空白的版面開始創作:最初,整張版面上所有位置都是蒙版遮住的空白(用一個特殊的"mask"標記表示),然後版畫師一輪一輪地揭開最有把握的那些位置,每揭開一批,下一輪的判斷就更有依據,直到整張版面全部填滿、作品完成。這個過程被稱為"去噪"——從全部遮蔽到逐步清晰。
關鍵的不同在於:在每一輪去噪中,模型可以同時看到已經揭開的所有位置,不管它們在文本中的位置是前是後。也就是說,擴散語言模型天然具備雙向感知能力——它既能看"前文",也能看"後文"。正是這個特性,成為了這項研究的核心突破口。
具體來說,訓練時會有一個"加噪"過程:給定一段乾淨的答案,隨機用mask蓋住其中一部分,讓模型練習從不完整的資訊中還原出原文;推理時則反過來,從全部被mask的序列出發,每一步揭開最有把握的若干個位置,反覆疊代,直到生成完整答案。
**二、老辦法為什麼搬不過來?兩個根本性的不兼容**
在理解擴散語言模型的工作方式之後,現有自蒸餾方法的問題就一目了然了。
傳統自蒸餾對普通語言模型的做法是這樣的:把一道題的標準答案或參考解題過程直接附在題目後面,拼接成一個"特權提示詞",老師模型拿到這個加了參考答案的題目,而學生模型只拿到原始題目。老師因為看到了答案,生成的預測自然更準確;學生則在沒有答案的條件下生成答案,並在每一個詞的位置上向老師的分布靠攏。這套邏輯對逐字生成來說非常自然——因為逐字生成本來就是看左邊猜右邊,把參考答案放在題目左邊(作為前綴)是順理成章的。
然而擴散語言模型生成的是整段答案,不是一個一個字往後加,沒有"看左邊猜右邊"這回事。把參考答案放在題目左邊這個操作,對擴散語言模型來說不僅設計感奇怪,而且研究者後來的實驗揭示了一個更嚴重的問題:這樣做,老師和學生給每個位置的詞彙預測幾乎完全一樣。換句話說,老師並沒有比學生多提供任何新資訊——這種自蒸餾等於什麼都沒蒸,白費力氣。
研究者用一個具體數據來說明這一點。他們定義了"Top-K重疊率"——在每個去噪步驟中,老師和學生對同一個位置的詞彙排名最靠前的K個選項,有多少比例是重疊的。對於傳統做法,這個重疊率接近1,幾乎完全相同;而對於他們提出的新方法,這個重疊率落在一個合理的中間範圍,老師確實提供了學生不具備的新視角。
第二個不兼容是監督的粒度問題。普通語言模型的訓練天然以"下一個詞"為單位,每生成一個詞就有一次監督信號,這叫做"詞級別監督"。擴散語言模型則不同——它每一步揭開的是一批詞,且只有那些在本輪被揭開的位置才真正參與了本輪的狀態轉變。如果強行把詞級別監督套用過來,就會把很多根本沒參與本輪決策的位置也納入計算,信號來源混亂,優化方向失真。
**三、核心創新一:讓學生的"未來答案"成為老師的參考書**
既然把參考答案放在題目前面是一種不適合擴散語言模型的設計,研究團隊的解決思路充分利用了擴散語言模型獨有的雙向感知能力。
回憶一下版畫師的比喻。版畫師每一輪都會揭開一批位置,此時版面上既有已經確定的內容,也有還被遮住的內容。對於一個普通語言模型來說,它只能看到左邊已經揭開的內容;但擴散語言模型可以同時感知整個版面,包括右邊尚未揭開的位置。這就意味著,如果我們偷偷在右邊的位置寫上一些"劇透資訊",模型是可以看到並加以利用的。
d-OPSD的做法正是基於這個思路。具體流程是這樣的:首先讓學生模型正常生成一個完整答案,相當於版畫師完成了一幅作品,我們把這個完整答案暫時保存下來,稱之為"自生成的未來"。然後,在老師模型參與決策的時候,把這個完整答案中的一部分隨機"提前揭示"出來——不是放在題目前面,而是直接替換掉對應位置的mask標記,讓老師在當前這一輪去噪時就能看到這些"來自未來"的內容。
這個設計有一個精妙的比喻:就像一個人能夠穿越回十年前,帶著對未來發生的事情的了解重新做決策。十年前的你(學生)在當時並不知道後來的走向,但另一個版本的你(老師)帶著對結局的了解,給出的每一步建議自然更有依據。學生通過向老師學習,逐漸內化這種"來自未來的經驗"。
這個"揭示多少未來資訊"的程度由一個叫做"保留比例"的參數控制,論文中記作ρteacher。保留比例越高,老師看到的未來內容越多,老師就越強;但研究者發現,老師並不是越強越好,因為老師太強的時候,學生和老師的差距太大,學習信號反而變得難以消化。實驗顯示保留比例設為0.25時效果最佳。
此外,研究者還特別指出,老師看到的這些"未來資訊"是學生自己生成的,而不是數據集裡的標準答案——這一點至關重要。因為學生生成的答案會隨著訓練過程而變化,老師也隨之更新,整個過程始終保持"在線",不會陷入依賴靜態數據的困境。
**四、核心創新二:把監督從"一個詞"升級到"一個去噪步驟"**
解決了老師的構建問題,還需要解決監督信號的粒度問題。
回到版畫師的比喻。版畫師每一輪會選出他最有把握的若干個位置,把它們從遮蔽狀態揭開,並確定下來。這若干個被揭開的位置,才是本輪真正發生狀態變化的位置,也是本輪決策的主角。研究者的方案是:只在這些"本輪被揭開的位置"上計算老師和學生的分布差異,其餘位置則不參與本輪的監督。
這個"本輪被揭開的位置集合"在論文中叫做Kt,是從全部還被遮住的位置中,按照預測置信度從高到低挑選出來的top-k個位置。整個訓練軌跡中,所有步驟的Kt合併起來,恰好覆蓋所有位置——每個位置都會在它被揭開的那一步參與恰好一次監督,既不重複也不遺漏。這種按步計算損失的方式被稱為"步級別散度"。
有一個細節值得關註:這個Kt應該由誰來決定?是學生最有把握的位置,還是老師最有把握的位置?研究者做了對比實驗,發現以老師的置信度來選取Kt效果更好。背後的道理不難理解:老師因為看到了未來資訊,它最有把握的位置往往是它能給出最強指導的位置,讓學生在這些位置上向老師學習,信號質量最高。
最終的訓練目標,是在整個軌跡的所有步驟上,對所有Kt位置的KL散度(一種衡量兩個概率分布差異的度量)取平均,讓學生的預測分布逐步向老師靠攏。研究者選用了"反向KL"而非"正向KL",原因在於反向KL具有"模式尋求"特性——它傾向於讓學生專注於最可能的答案模式,而不是試圖覆蓋老師分布的所有可能性,這對於推理任務來說更為魯棒。
**五、一些讓訓練更穩定的工程細節**
理論設計之外,研究團隊還披露了幾個讓訓練實際運作起來的工程技巧,這些細節在實踐中至關重要。
其一是固定老師策略。由於老師和學生共享同一套模型參數,如果參數更新太快,老師的分布也會隨之劇烈變化,導致每一步的監督信號都不穩定。研究者的做法是把老師固定在訓練開始時的初始參數上,只讓學生的參數更新。這樣老師提供的是一個穩定的基準,學生可以踏實地朝著這個目標靠近。
其二是逐詞裁剪。在計算KL散度的時候,某些詞彙位置的分布差異可能異常大(比如某個罕見詞的概率在老師和學生之間差了好幾個數量級),這些異常值如果不加限制,會主導整個梯度方向,讓訓練朝著奇怪的方向走。研究者借鑑了其他工作的經驗,對每個詞彙位置的散度貢獻施加一個上限,把過大的偏差截斷,實驗證明這顯著提升了訓練穩定性和最終性能——沒有裁剪的版本在約150步之後開始崩潰,最終準確率跌至69.37%;加了裁剪的版本則穩定爬升至81%。
其三是只在正確答案上訓練。每一道題,研究團隊會讓學生模型最多嘗試8次(類似於pass@8),只要有一次生成了正確答案,就用這個正確答案來構造自蒸餾的訓練樣本,計算損失並更新參數;如果8次都沒生成正確答案,則跳過這道題。實驗表明,只在正確生成上訓練,比在所有生成(包括錯誤答案)上訓練效果更好,儘管兩者都比基線好。
其四是輸入拼接技巧。擴散語言模型每一步的注意力計算需要覆蓋整個序列,如果把每一步的輸入分別傳入模型計算損失,內存占用會隨步驟數線性增長,很快爆內存。研究者的辦法是把整條軌跡中所有步驟的輸入張量拼接成一個大批次,一次性傳入模型,由於所有步驟共享同一套模型權重,梯度在拼接後的批次里保持獨立,不需要額外儲存中間狀態,從而大幅節省了內存。
**六、實驗結果:四項任務全面碾壓,訓練步數僅需十分之一**
研究團隊在四項推理任務上對d-OPSD進行了系統評測,基礎模型選用了LLaDA-8B-Instruct,一個當時最先進的擴散語言模型。
四項任務分別是:GSM8K(小學數學應用題)、MATH500(競賽級數學題)、Countdown(用給定的三個數字通過四則運算湊出目標數)、Sudoku(4×4數獨,需滿足約束條件填寫數字)。前兩個考驗數學推理,後兩個考驗規劃與約束求解能力。
對比的基線方法包括:強化學習類方法diffu-GRPO和VRPO,以及監督微調類方法SFT和d3LLM(後者是一種基於靜態數據集的離線自蒸餾方法)。
在性能上,d-OPSD在幾乎所有設置下都達到或超越了最佳基線。以生成長度256為例:GSM8K上,d-OPSD達到81.0%,而最強的RLVR基線diffu-GRPO為79.8%;MATH500上,d-OPSD與diffu-GRPO同為37.2%;Countdown上,d-OPSD以37.9%明顯領先diffu-GRPO的33.2%;Sudoku上,d-OPSD以23.9%大幅超過diffu-GRPO的18.4%。
更令人印象深刻的是訓練效率。達到峰值性能所需的優化步數(即梯度更新次數),diffu-GRPO在GSM8K上需要7700步,d-OPSD只需425步;在MATH500上diffu-GRPO需要6600步,d-OPSD只需100步;在Countdown上diffu-GRPO需要5000步,d-OPSD只需175步;在Sudoku上diffu-GRPO需要3800步,d-OPSD只需425步。平均算下來,d-OPSD大約只需要原來約10%甚至更少的訓練步數就能收斂。研究者將這種效率優勢歸因於步級別的密集監督——強化學習只在最終給出一個粗粒度的獎勵信號,而d-OPSD在每一步的每個位置都有來自老師的細粒度指導,資訊密度遠非強化學習可比。
此外,研究團隊還做了一個"先驗驗證"實驗,用來確認自蒸餾的前提條件是否成立:老師是否足夠強,強到能夠引導學生?他們從訓練集中隨機抽取500道題,讓學生生成答案後構造自老師輸入,再用老師分布重新生成答案,觀察正確率。結果顯示,即使保留比例僅為0.10,老師的答題準確率也顯著高於學生(例如在GSM8K上,學生Pass@1為81.3%,而保留比例0.10的老師已能達到85.6%,0.50時達到94.8%,接近Pass@8的95.5%)。這證明了老師確實掌握了學生所不具備的額外能力,自蒸餾的資訊傳遞是有實質內容的。
**七、新方法與老方法的正面對決:為什麼"看未來"勝過"看參考答案"**
為了單獨驗證自蒸餾老師的構建方式是否關鍵,研究者設計了一個控制變量實驗:保持步級別散度監督不變,只把老師的構建方式換成傳統的"把參考答案拼到題目前面",其餘完全相同,測試這個"AR風格OPSD"與d-OPSD的差距。
結果是:AR風格OPSD在GSM8K上達到78.4%,在MATH500上達到33.4%;而d-OPSD分別達到81.0%和37.2%,差距明顯。
前面提到的Top-K重疊率指標為這個差距提供了直接解釋。研究者計算了兩種方法下,每個去噪步驟中,老師和學生的詞彙分布在各個位置的Top-20重疊比例。AR風格方法的重疊率接近1——老師和學生的預測幾乎完全一致,老師沒有提供任何超越學生的新資訊,自蒸餾形同虛設。而d-OPSD的重疊率維持在一個適中的範圍,老師的分布與學生有實質差異,這種差異就是可以轉移給學生的新知識和新思路。
這個發現有一定的普遍意義:自蒸餾要有效,老師和學生之間必須存在有意義的差異,這個差異不能太大(學生學不會)也不能太小(沒有可學的東西)。d-OPSD通過讓老師看到學生自己生成的未來答案,而非靜態的標準答案,恰到好處地製造了這種有益的分布差異。
**八、方法的局限與已知失效場景**
研究團隊在論文中坦誠地披露了一個重要的失效模式:在某些訓練設置下,d-OPSD在達到性能峰值之後會出現"政策崩潰"——性能急劇下降,模型變得無法正常工作。這與強化學習方法中觀察到的同類現象一致。研究者推測,這種崩潰可能源於反向KL的"模式尋求"特性在後期訓練中變得過於極端——模型越來越只盯著某幾種答題模式,喪失了多樣性和靈活性,最終徹底"死鎖"。論文中展示的Countdown任務的訓練曲線清晰地呈現了這種模式:性能在175步左右達到峰值後快速下滑。
這意味著在實踐中需要仔細監控訓練過程,選取合適的檢查點,而不能無限制地延續訓練。如何從根本上解決這一穩定性問題,是研究者明確指出的未來工作方向。
歸根結底,這項研究的意義在於證明了一件事:專門為某類模型設計的訓練方法,會比通用方法更有效,這種專門設計可以從根本原理出發,而不只是表面的參數調整。對於擴散語言模型這類還處於快速發展階段的新興技術來說,d-OPSD提供了一條在計算資源有限的情況下快速提升推理能力的可行路徑。當然,政策崩潰這一懸而未決的問題,也提醒著研究者和使用者,這條路還沒有完全鋪平。對於那些希望深入了解全部技術細節的讀者,可以通過論文編號arXiv:2606.18195查閱完整原文。
Q&A
Q1:d-OPSD和普通強化學習訓練擴散語言模型有什麼區別?
A:強化學習訓練擴散語言模型(如diffu-GRPO)只在模型生成完整答案後給一個"對了"或"錯了"的信號,屬於稀疏獎勵,模型需要大量嘗試才能學會。d-OPSD則是讓模型同時扮演老師和學生,老師在每個去噪步驟都給出密集的指導信號,資訊量遠多於獎勵信號,因此同等效果只需約十分之一的訓練步數。
Q2:擴散語言模型的"自蒸餾老師"為什麼要用模型自己生成的答案,而不是數據集裡的標準答案?
A:研究者通過實驗發現,用靜態標準答案構造老師時,老師和學生的預測分布幾乎完全相同(Top-K重疊率接近1),老師沒有提供任何新知識,蒸餾等於無效。而用模型自己生成的答案做老師,老師和學生之間存在適度的分布差異,老師確實掌握了可以傳遞給學生的額外資訊,蒸餾才真正有效。
Q3:d-OPSD訓練過程中的"政策崩潰"是什麼意思,有辦法解決嗎?
A:政策崩潰是指模型在達到最佳性能後,繼續訓練反而導致性能急劇下滑,模型變得無法正常推理。這與強化學習訓練中觀察到的類似現象一致,研究者推測是訓練目標的"模式尋求"特性在後期過於極端所致。目前的應對方法是提前停止訓練並選取峰值檢查點,從根本上解決這一問題是論文指出的未來研究方向。






