這項由T-Tech研究院完成的研究成果以arXiv預印本形式發布於2026年5月29日,論文編號為arXiv:2605.31159,感興趣的讀者可通過該編號查閱完整原文。
一個優秀的老師,面對基礎薄弱的學生時,該怎麼教?這個問題不只困擾著現實中的教育者,也同樣困擾著人工智慧領域的研究者。T-Tech研究院的團隊正是從這個角度出發,提出了一套名為"信任域行為混合
"(Trust-Region behavior Blending,簡稱TRB)的訓練方法,並在數學推理任務上取得了同類方法中最優的平均表現。
**一、從"照本宣科"到"因材施教":AI模型的知識傳授難題**
在AI的世界裡,有一種常見的培養方法叫做"知識蒸餾"——就是讓一個小而高效的"學生模型"去模仿一個更大、更強的"教師模型"的行為。這個過程可以粗略理解為:教師模型做題,寫下詳細解題過程,然後讓學生模型照著這份"標準答案"反覆練習,直到學生也能做出類似的回答。
然而這裡有個根本性的問題。當學生模型按照教師的"標準答案"學習時,它所接觸到的語境——也就是每道題前面的"開頭"——始終是教師寫出來的那種流暢開頭。但真正考試的時候,學生模型要靠自己從零開始寫,它自己寫出來的開頭可能歪歪扭扭、詞不達意。這種"訓練時的語境"和"實際使用時的語境"之間的落差,在AI研究中被稱為"前綴不匹配
"或"曝光偏差"問題。
為了解決這個問題,研究者們發展出了"在策略蒸餾
"(On-Policy Distillation,簡稱OPD)這套方法。簡單說,就是讓學生模型自己先寫一段開頭,然後再讓教師模型對這段開頭後面的內容進行指導和監督。這樣,學生練習的語境就和它實際使用時的語境一致了,不再是"溫室里長大卻要在野外生存"的困境。
但這套方法又帶來了新的麻煩。剛開始訓練的時候,學生模型非常弱,它自己寫出來的開頭可能亂七八糟、驢唇不對馬嘴。在這種糟糕的開頭基礎上,教師模型的指導也就失去了意義——就像一個學生在黑板上隨手亂寫了一通,老師就算想糾正也不知道從哪裡下手。T-Tech的研究團隊把這個階段形象地描述為:早期的學生自我生成軌跡,往往無法承載有效的教師監督信號。
**二、"信任域行為混合":在學生和教師之間找到最佳站位**
TRB的核心思路,可以用一個"導航輔助"的比喻來理解。
假設你是一個剛拿到駕照的新手司機,獨自上路行駛。旁邊坐著一位經驗豐富的老駕駛員。如果老駕駛員完全接管方向盤,你就什麼都學不到;但如果老駕駛員完全不管,任由你橫衝直撞,你可能出事故也可能走彎路。最好的方案是:老駕駛員在你偏離方向的時候,輕輕給你一個提示或者小小地修正一下,但整體上還是你在開車,讓你保持對方向盤的掌控感。
TRB做的就是這件事。在每一個生成位置(相當於駕駛途中的每一個路口),它都會在"學生自己會怎麼走"和"教師會怎麼走"之間,尋找一個既靠近教師方向、又不會偏離學生太遠的中間點。這個"不會偏離太遠"就是所謂的"信任域"——一個以學生當前位置為中心畫出的安全圈。只要行為策略落在這個圈內,就被認為是可接受的。
從數學角度來說,這個過程被表述為一個優化問題:找到一個採樣策略,讓它儘量接近教師(用KL散度來度量距離,KL散度可以理解為兩個概率分布之間的"差異程度"),同時與學生的距離不超過一個給定的預算值。這個優化問題有一個漂亮的閉合解,即對學生和教師的下一詞概率分布做加權幾何平均:混合策略的每個詞的概率,正比於學生概率的(1-β)次方乘以教師概率的β次方,β就是那個控制"向教師靠攏程度"的參數,取值在0到1之間。當β等於0時,混合策略就等於學生自己;當β等於1時,就等於教師。
找到正確的β值需要一個額外的步驟:對給定的信任域預算ε,用二分法搜索最大的β,使得混合策略和學生之間的差異恰好等於ε。研究團隊在論文附錄中嚴格證明了"混合策略與學生之間的差異隨β單調不減"這一數學性質,從而保證了二分法的合法性。這個過程可以理解為:導航系統在安全圈內儘量往教師方向拉,拉到圈的邊界為止。
值得特別說明的是,TRB只改變了"用誰來走這段路"(行為策略),而沒有改變"走完這段路之後怎麼學習"(訓練目標)。訓練目標始終是標準的逆向KL散度
,衡量學生預測和教師預測之間的差距。這種"只動採樣策略、不動學習目標"的設計,讓TRB可以像一個插件一樣,疊加在任何標準的OPD流程上。
**三、漸進退出:信任域預算的線性消退計劃**
TRB還有一個關鍵設計:它只在訓練的早期階段發揮作用,然後逐漸退出,把控制權完全交還給學生。
研究團隊為信任域預算設計了一個線性消退計劃:在第0步時,預算從初始值ε?開始;隨著訓練步數的增加,預算線性降低;到預設的"熱身結束步驟"K時,預算降為零,此後完全回到純學生採樣。這個設計背後的邏輯是:在學生最弱的時候,給它最多的導航輔助;隨著學生越來越強,輔助越來越少,最終完全自立。
這就像騎自行車時父母扶著后座的輔助輪——開始時完全依賴,之後逐漸放手,最後完全靠自己平衡。整個TRB方法因此引入了兩個超參數:初始信任域預算ε?和熱身步數K。在實驗中,研究團隊對ε?在0.001到0.05之間的五個值、K在15、25、50三個值進行了系統性搜索。
**四、和其他"助教方案"的比較:TRB究竟好在哪裡?**
T-Tech的研究團隊不只是提出了TRB,他們還認真地和一系列其他方案進行了對比,讓讀者能夠清楚地看到TRB的相對優勢和適用場景。
研究中對比的方案包括以下幾類。基礎參照是"純OPD",也就是完全不加任何干預,直接讓學生自己滾動生成,貫穿整個訓練過程。另一種是"Veto"方法,它的思路是在學生走完一段路之後,修改"教師的預期目標",在學生的預測和教師的預測之間構建一個橋樑,調整訓練時的目標分布。還有"熵感知OPD
"方法,它不改變行為策略,而是在計算訓練損失時,對教師不確定性高的地方同時施加額外的正向KL壓力,以保持多樣性。"TIP"方法則專注於選擇哪些詞的位置對訓練更有幫助,通過學生熵和師生分歧來挑選重要的監督位置。
與上述方法不同,"SKD"(推測性知識蒸餾
,又稱交錯教師注入)直接在生成時替換詞元:學生先採樣一個詞,如果這個詞不在教師的前K高概率詞裡,就用教師重新採樣一個詞來替換。這個方法相當於偶爾強制性地把學生的筆從錯誤軌道上拉回來,用教師的手寫上一筆。
此外,研究團隊還測試了"溫度熱身"(在熱身階段降低學生的採樣溫度,讓學生保守一些,之後恢復到正常溫度)和"SFT熱身"(先用教師生成的數據做監督微調,再切換到OPD)這兩種簡單基線。
"固定ε混合"是TRB的一個變體,使用同樣的逐前綴信任域求解器,但不做消退,整個訓練過程中信任域預算保持不變。這個變體的存在非常關鍵,因為它能幫助區分"信任域混合本身的作用"和"消退機制的額外貢獻"。
**五、數學推理的考場:兩組實驗給出的成績單**
研究團隊在兩組模型配對上進行了實驗。第一組是Qwen3-1.7B-Base(學生)從Qwen3-8B(教師)蒸餾,第二組是Qwen3-0.6B-Base(學生)從Qwen3-4B(教師)蒸餾。評估使用的是數學推理能力,包括MATH500(一個覆蓋競賽數學難題的標準測試集)、AIME24和AIME25(美國數學邀請賽真題)、AMC(美國數學競賽)和Olympiad(奧數題庫)等多個維度。評估指標是pass@1,即模型一次生成就給出正確答案的概率,對每道題採樣多次取平均(GSM8K用32次,MATH500和Olympiad用64次,AIME和AMC用512次)。
在1.7B學生的實驗中,TRB的平均分是33.2,高於純OPD的32.3,也高於Veto的32.6、SKD的32.7、溫度熱身的32.8、SFT熱身的32.2和固定ε混合的32.6。在0.6B學生的實驗中,TRB的平均分是44.4,同樣高於純OPD的44.0,以及其他所有方法。雖然某些基線在個別測試集上會超過TRB,但沒有任何一個方法能在兩組實驗的整體平均上超越TRB。
特別值得關注的是TRB和固定ε混合的對比:兩者使用完全相同的逐前綴求解器,區別僅在於TRB會把信任域預算消退到零,而固定ε混合不會。TRB在兩組實驗中都超過了固定ε混合,這說明"把老師的輔助逐漸撤走"這個設計確實有獨立的價值——教師導航在早期很有用,但如果一直保持,反而會妨礙學生建立自己的能力。
**六、訓練過程的內部觀察:信號究竟在哪裡起作用?**
研究團隊不滿足於只看最終成績,他們還深入觀察了訓練過程中發生了什麼。
其中一個有意思的分析是追蹤"教師在學生訪問的前綴上的詞元級平均熵"。熵可以理解為教師對下一步該寫什麼的"猶豫程度"——熵越低,教師越確定,監督信號越清晰。觀察發現,在TRB的熱身階段,學生訪問的前綴上的教師熵明顯低於純OPD。這意味著TRB引導學生走到了一些教師更有把握的路徑上,因此教師的指導也更清晰有效。一旦熱身結束,兩者的熵曲線趨於一致,說明主要的差異發生在熱身窗口內,而不是熱身之後。
另一個有趣的分析是"步驟0的前綴探針實驗":在訓練剛開始的第一步,從TRB採樣得到的前綴和從純學生採樣得到的前綴,分別在固定長度處截斷,然後用同一個教師或同一個學生續寫,看哪個前綴能續寫出更多正確答案。結果發現,無論用教師續寫還是用學生續寫,TRB的前綴都比純學生的前綴更容易得到正確答案,而且在不同截斷長度(64、128、256、512詞元)下都是如此。對於教師續寫,最短截斷時TRB的相對增益高達50%;對於學生續寫,最短截斷時也有22%的增益。
這個結果說明,TRB在最開始的時候就把學生引導到了更"肥沃"的語境上——這些語境無論對教師還是對學生本身,都更容易觸發正確的推理路徑。這和李等人在2026年提出的理論框架相互印證:OPD成功的關鍵在於學生訪問的狀態是否能承載來自教師的有效信號。
研究團隊還展示了一個具體的例子:給定一道"b進制下112的立方等於23632,求b"的數學題,純學生在第一步就開始胡言亂語("我們需要了解COVID-19時代的日常生活……"),而TRB引導下的學生,雖然開頭也有些噪聲,但很快就抓住了題目核心,開始進行正確的進制轉換推導。這個例子雖然只是單個案例,研究團隊也明確聲明它只是定性驗證而非統計證據,但它直觀地展示了TRB改善早期生成質量的機制。
**七、實驗背後的工程細節:一個嚴謹的實驗框架**
為了讓比較儘可能公平,研究團隊為所有方法設置了完全相同的基礎訓練配置。所有實驗在8塊NVIDIA H100顯卡上運行,使用verl訓練框架和SGLang生成框架。學生模型用AdamW優化器,學習率1e-5,梯度裁剪上限1.0,批量大小64,每個問題生成4條回答,訓練目標是逆向KL散度,在學生的前16個高概率詞的支撐上估算。獎勵信號來自math-verify工具,正確答案得1分,錯誤答案得0分。訓練數據來自OpenThoughts3-1.2M語料庫,採樣25600條訓練提示。
每隔20個訓練步就進行一次完整評估,因此每條訓練曲線都包含大量評估點,而非只有少數孤立的檢查點。對於每個方法族,從所有檢查點中選取在該設置專屬基準測試套件上平均分最高的檢查點,作為最終報告值。這種"選最優檢查點"的協議對所有方法一視同仁,避免了因訓練步數選擇不同而帶來的偏差。
此外,研究團隊還專門處理了一個技術細節:Qwen3系列的學生和教師模型使用了不同的EOS(句子結束標記)詞元ID。如果不加處理,直接計算KL散度時,同一個"停止生成"的語義事件會被拆分到兩個不同的維度上,導致計算偏差。團隊的解決方案是把兩者的EOS都映射到一個共享的統一標記,在此基礎上進行採樣和KL計算,從而確保停止事件在比較時是對齊的。
**八、理論保證:為什麼這套方法在數學上是有底氣的?**
TRB的有效性不只依賴實驗數據,研究團隊還從理論層面給出了兩個重要保證。
第一個保證是"信任域解的單調性"。他們嚴格證明了,混合係數β從0增加到1時,混合策略與學生策略之間的KL散度是單調不減的。證明過程利用了對數配分函數的凸性:KL散度對β的導數等於β乘以對數比率的方差,而方差總是非負的,因此導數也是非負的。這個性質保證了二分法搜索β的合法性,也保證了信任域約束的可解性。
第二個保證是"小預算下的效率優勢"。研究團隊通過對β=0處的泰勒展開證明:當信任域預算ε很小時,混合策略相對於學生的KL代價是ε的二階量,而混合策略相對於教師的KL改善是√ε的一階量。這意味著,在信任域邊界上,"花費很小的學生偏差代價"換來的是"相對較大的教師接近收益"。換用日常語言說:每一點點偏離學生的代價,都能換來比這點點代價更值得的教師方向進展,而且在預算越小的時候這個比例越有利。
第三個方面是"詞元級約束對序列級分布的控制"。研究團隊還在附錄中證明了,如果在每一個前綴位置上,混合策略和學生策略的詞元級KL散度不超過ε,那麼在整條序列上,兩者的KL散度不超過所有位置的ε之和(等長序列時不超過T乘以ε)。這意味著詞元級的約束可以自然地上升為序列級的控制,從而確保TRB不會在整體上產生太大的偏離。
**九、局限與邊界:研究團隊的坦誠說明**
T-Tech的團隊在論文中也坦率地說明了這項工作的邊界。
研究範圍僅限於兩組數學推理的OPD設定,使用的是Qwen3-Base系列的師生對,評估也是基於正確性的。他們明確指出,不能保證相同的熱身配置會在其他領域(如代碼生成、對話、文本摘要)或不同師生能力差距下產生同樣的效果。
從計算開銷的角度來看,TRB在熱身階段需要同時在線加載學生和教師兩個模型,並在每個生成步驟都同步查詢教師的概率分布。這使得熱身期間的顯存需求大約增加了教師模型權重加上教師KV緩存的額外量。在運算量(FLOP)方面,教師的計算次數和標準OPD相當(每個詞元評估一次教師),但必須在生成時串行進行,而不是在生成完成後並行批處理,所以牆鍾時間可能比純OPD的後驗教師批處理更慢。不過,這個額外開銷只在熱身窗口內存在,熱身結束後就恢復到標準OPD的計算配置。
歸根結底,TRB的核心貢獻在於揭示了一個被之前研究忽視的階段:訓練的最開始,學生自己生成的語境質量太低,無法有效承接教師的指導。在這個關鍵階段,用一種有理論依據、有閉合解、可以自動退出的方式提供導航輔助,就能幫助整個訓練過程站在一個更好的起點上。就算導航輔助本身的作用很短暫,起點的差異也會在整個訓練過程中持續累積,最終體現為更好的結果。
這一發現對於未來設計大模型蒸餾方案具有明確的實用價值:當你用在策略蒸餾訓練一個弱學生模型時,與其讓它在最初一段時間內靠自己摸爬滾打,不如給它一個有時限的、有約束的、可自動退出的導航輔助,讓它在最關鍵的早期階段能夠走到更有價值的語境上,從而讓教師的每一分監督都花在刀刃上。
Q&A
Q1:在策略蒸餾(OPD)為什麼在訓練早期容易出問題?
A:OPD要求學生自己先生成一段開頭,然後教師在這段開頭基礎上提供監督。但在訓練剛開始時,學生模型非常弱,生成的開頭往往混亂無意義。在這種糟糕的語境上,教師的指導也就失去了意義,就好比學生在黑板上隨手亂寫,老師根本不知道從哪裡糾正。TRB方法正是為了解決這個早期弱質量前綴問題而設計的。
Q2:TRB中的"信任域"具體限制了什麼?
A:信任域限制的是採樣策略(行為策略)偏離學生當前狀態的程度。具體來說,混合策略與學生策略之間的KL散度(一種衡量兩個概率分布差異程度的指標)必須不超過預設的預算值ε。在這個圈內,混合策略會儘量靠近教師。這樣既能引入教師的正向影響,又不會讓訓練數據跑得離學生太遠。
Q3:TRB和直接用教師替換部分生成詞元的SKD方法有什麼區別?
A:SKD是在生成時,當學生採樣的詞不在教師前K個高概率詞裡時,直接用教師重新採樣一個詞替換。這是一種硬性的詞元級干預,沒有明確的約束框架。TRB則是在每個前綴位置上,通過優化求解出一個整體上最接近教師、同時滿足學生中心信任域約束的混合分布,是一種有閉合解的軟性混合,並且設計了自動消退機制,訓練後期完全還原為純學生採樣。






