這項由清華大學與騰訊大模型部門聯合開展的研究,於2026年6月發表在arXiv預印本平台,論文編號為arXiv:2606.11119,有興趣深入了解技術細節的讀者可通過該編號查閱完整論文。
**一、一個你可能沒想到的問題:AI"刷題"也會浪費時間?**
當我們訓練一個大型語言模型(簡單理解為讓AI變聰明的過程)時,背後的邏輯有點像讓一個學生不斷做練習題。做完一道題之後,系統會告訴這個學生"對了"或者"錯了",學生再根據這個反饋調整自己的思路,慢慢變得更聰明。
這種訓練方式聽起來簡單直接,但問題在於——不是所有的題目都值得花同樣多的時間去做。如果一道題太簡單,學生每次都做對,那做十遍和做一遍沒什麼區別;如果一道題太難,學生每次都做錯,也沒什麼可學的。真正有價值的練習,是那些"有時候對、有時候錯"的題,正是在這種搖擺和對比中,學生才能真正領悟到規律。
現有的AI訓練方法在這一點上做得不夠好,而清華大學與騰訊聯合研究團隊提出的TRACE框架
,正是專門為了解決這個問題而誕生的。它的核心思路是:在固定的"練習量"(專業上叫"採樣預算")之內,把練習時間集中花在那些最可能帶來正反對比的地方。
**二、傳統訓練方式的兩個"浪費"**
要理解TRACE到底解決了什麼,先要搞清楚傳統訓練方式為什麼不夠高效。
第一個浪費發生在選題環節。傳統方法常常隨機從題庫里抽題,這就好像一個老師隨手抓一把題目發給學生做,結果裡面夾了一堆超簡單的送分題和一堆完全超綱的難題。送分題沒挑戰性,超綱題做了也白做,真正"恰到好處"的題目占比很低。已有的一些改進方法(如PCL等)會根據題目難度來篩選,優先選那些"中等難度"的題,這確實有所改善。
第二個浪費更隱蔽,發生在做題過程內部。即使選到了一道中等難度的題,傳統方法也是讓AI從頭到尾獨立做一遍,然後只告訴它"最終答案對不對"。這就好像一道需要經過五個步驟才能解出的數學題,AI做到第三步走錯了,但老師只在最後說"你錯了",卻不告訴它是哪一步出了問題。這種"只看結果、不看過程"的反饋方式,對於多步驟的複雜任務來說,效率非常低。
尤其當AI需要完成需要多輪交互的任務時——比如先搜索資料、再分析資訊、再給出答案的全流程任務——這個問題更加突出。整個解題過程可能包含很多個中間步驟,每個步驟都有可能是成敗的關鍵,但統一的"最終對錯"反饋根本無法告訴AI哪個步驟的決策值得改進。
**三、把"做題過程"想像成一棵樹**
TRACE團隊用了一個非常漂亮的思路來解決這個問題:他們把AI的解題過程從一條直線變成了一棵樹。
以一道需要AI搜索多次資料才能回答的複雜問題為例。傳統方式下,AI會從頭到尾完整地做一遍:先搜索一次,再搜索一次,再給出答案——這是一條直線。而TRACE的方式是,在這條直線的某些關鍵節點上,讓AI"分叉"——也就是從同一個中間狀態出發,再獨立嘗試幾次不同的後續路徑,看看不同的後續選擇會不會帶來不同的最終結果。
這棵"樹"的根節點是題目本身,往下的每一個分叉點是AI做到某個中間步驟之後的狀態。如果從某個中間狀態出發,不管後續怎麼做都能答對,說明這個節點已經"穩了",不值得在這裡分叉浪費資源;如果從某個中間狀態出發,有時候能答對、有時候會答錯,說明這個節點是真正的"關鍵決策點",在這裡多嘗試幾種後續路徑,就能給AI提供寶貴的對比學習機會。
這個直覺對應了一個數學上的優美結論:一個中間節點的"對比潛力"恰好等於它的成功概率乘以失敗概率。當成功率接近50%時,這個乘積最大,意味著這個節點是最值得投入資源的地方;當成功率接近0%或100%時,這個乘積趨近於0,意味著這裡幾乎沒有學習價值。研究團隊在論文中用嚴格的數學推導證明了這一點(對應Proposition 2),其實質是:一個節點下方還剩多少"懸念",恰好等於它的成功概率的伯努利方差。
**四、TRACE如何像一個聰明的考試規劃師**
明白了這棵樹的邏輯,TRACE的工作方式就很好理解了。它扮演的角色像是一個聰明的考試規劃師,專門負責把有限的練習時間分配到最值錢的地方去。
整個流程分為兩個階段,像是先做大規劃、再做細調整。
第一個階段叫"全局根節點分配"。面對一大批候選題目,規劃師先預測每道題的難度,然後決定哪些題值得做、每道題值得做幾遍。太簡單的題(AI幾乎每次都做對)和太難的題(AI幾乎每次都做錯)會被跳過或少做,那些成功率大約在中間水平的題會獲得更多練習次數。這裡有一個細節:每道題必須至少做兩遍才能入選,因為只做一遍根本沒法比較"做對的思路"和"做錯的思路"有什麼不同。
第二個階段叫"局部前綴擴展"。當一道題的初步嘗試完成之後,規劃師會檢查這道題的每一個中間步驟,找出那些"成敗還沒定論"的關鍵節點,然後追加額外的分叉嘗試。具體來說,如果AI在某個中間步驟之後的初步嘗試是"成功"的,規劃師會看看從這個節點再出發的新嘗試是否有可能失敗——如果有可能,就追加嘗試;如果這個節點之後"註定成功",就不必浪費資源。反之亦然。
這兩個階段共用同一個"難度預測器
"——一個比較小的模型(基於Qwen3-0.6B,一個輕量級語言模型),專門負責對任意一個題目或中間狀態評分,預測"從這裡繼續做下去,成功的概率大概是多少"。這個預測器在訓練過程中不斷自我更新,因為隨著AI主體越來越聰明,同樣一道題的難度也會發生變化,預測器需要跟上這種變化。
**五、這個方法背後的數學邏輯**
研究團隊不僅僅給出了一個直覺性的方案,還嚴格證明了它在數學上的合理性,這是這篇論文的一個顯著亮點。
關於"多看一點中間過程就能預測得更准"這件事,論文給出了嚴格的證明(Proposition 1):對於同樣的預測目標(預測從某個節點出發的最終成功率),掌握的資訊越多(比如不只知道題目本身,還知道已經做了哪些步驟),預測誤差只會降低不會增加。換句話說,知道AI已經做到第三步的狀態,比只知道題目本身,能更準確地判斷這道題最終會不會做對。這個道理聽起來很直覺,但背後有嚴格的資訊論支撐。
關於TRACE的分配策略到底有沒有比隨機分配更好,論文也給出了理論保證(Proposition 3):在合理的假設下,TRACE的分配方案能夠產生更強的梯度更新信號——這是一個技術說法,簡單翻譯過來就是:同樣數量的練習,TRACE能讓AI從中學到更多東西。其核心邏輯是,在對比學習中,只有當同一道題(或同一個中間狀態)同時出現了"做對的版本"和"做錯的版本"時,AI才能從比較中學習;如果所有嘗試都對了或者都錯了,學習信號幾乎為零。TRACE通過精準的預算分配,最大化了這種"有效對比"出現的概率。
**六、在真實任務上表現如何**
理論再漂亮,還得看實際效果。研究團隊在三類典型的多步驟AI任務上進行了測試,分別是數學推理、多跳問答和函數調用。
數學推理任務使用了DeepScaler數據集,包含超過四萬道競賽級數學題,AI會使用Python解釋器來輔助計算。測試時考察了包括AIME24、AMC23、MATH500等多個標準數學競賽基準,以及MMLU-Pro、ARC-Challenge、GPQA-diamond等不同領域的遷移能力測試。
多跳問答任務使用了HotpotQA,讓AI在一個本地搜尋引擎(基於維基百科)中多次搜索、整合資訊來回答需要多步推理的問題,並額外在2WikiMultiHopQA、MuSiQue、Bamboogle等數據集上測試泛化能力。
函數調用任務使用了BFCL v4數據集的多輪子集,AI需要在多輪交互中正確調用各種API接口完成用戶的複雜請求,測試包含基礎場景、長上下文、缺少功能、缺少參數等不同難度的子任務。
主要實驗使用了Qwen3-8B和Qwen3-14B兩個規模的語言模型作為訓練對象,同時也在Llama-3.2-3B-Instruct上進行了額外驗證。
對比基線包括四個:不做任何強化學習訓練的基礎ReAct模型、標準的GRPO訓練方法(隨機選題)、PCL(基於難度預測來篩選題目的方法)、以及TreePO(同樣使用樹狀結構但隨機分配分叉點的方法)。
在同等練習量(採樣預算完全一致)的條件下,TRACE在三類任務上的表現均優於所有對比方法。以多跳問答為例,Qwen3-14B在四個測試集上的平均準確率,TRACE達到54.0,而GRPO只有51.2,PCL為51.5,TreePO為53.0,TRACE的提升幅度大約在1到2.8個百分點之間。在數學推理任務上,Qwen3-14B的Olympiad題目準確率從GRPO的68.4提升到了TRACE的71.5,提升了3.1個百分點,說明對於難度分布複雜的任務,精準的預算分配效果尤為明顯。函數調用任務上,Qwen3-8B的平均成功率從GRPO的43.5提升到了TRACE的46.2,Qwen3-14B則從46.1提升到了48.0。
TreePO與TRACE的對比尤其值得關注,因為兩者都使用了樹狀結構的訓練數據和樹感知的策略優化算法,唯一的區別是TRACE用聰明的預算分配替換了TreePO的隨機分配。這個對比清楚地說明:收益來自於"聰明地分配"這件事本身,而不僅僅來自於"使用樹結構"這個形式。
**七、有效對比率:衡量"值錢練習"的專屬指標**
研究團隊還定義了一個叫做"有效對比率"的指標,用來直觀衡量每一批練習中有多少比例是真正有學習價值的。具體來說,如果一道題的所有嘗試都對了,或者都錯了,那這道題就是"無效的";只有當一道題同時出現了對的嘗試和錯的嘗試,它才被計為"有效"。
在整個訓練過程中,TRACE的有效對比率始終顯著高於其他方法。以Qwen3-8B的數學推理任務為例,GRPO的平均有效對比率只有26.8%,而TRACE達到了60.6%;在Qwen3-14B上,這兩個數字分別是34.7%和59.7%。這意味著,在同樣數量的練習中,TRACE有效利用了接近60%的練習機會,而傳統方法浪費了大約四分之三的練習資源在無效對比上。多跳問答和函數調用任務上也呈現出類似的規律。
**八、難度預測器:從題目層面到過程層面**
關於那個小小的難度預測器,研究團隊也做了專門的評估。他們用斯皮爾曼等級相關係數(一種衡量排名是否一致的指標,不需要理解數學細節,只需知道數值越高、排名越准就行了)來衡量預測器的表現。
結果顯示,預測器在題目層面(預測整道題的難度)和中間節點層面(預測做到某個步驟之後的局面難度)都能給出有意義的排名,且隨著訓練的進行,兩個層面的預測質量都逐漸提升。更令人驚喜的是,即使預測器主要靠題目層面的數據來訓練(因為題目層面的訓練信號更充足),它依然能泛化到中間節點層面,給出足夠準確的難度估計。這說明預測器學到的不是簡單地記住題目,而是一種能夠從任意長度的對話歷史中感知"局面難度"的通用能力。
另外,研究團隊還統計了實際分配行為。以函數調用任務為例,在候選題庫中大約有65%到70%的題目會被跳過(分配到的練習次數為零),被選中的題目平均會做約五到七遍。在中間節點的分叉預算分配上,重點往往落在相對位置處於整條解題路徑中間段的節點,而不是開頭或結尾,這與理論預測完全吻合——中間段的節點往往還沒"定局",是最值得加額外探索的地方。
**九、消融實驗:兩個階段各自貢獻了多少**
為了弄清楚"全局根節點分配"和"局部前綴擴展"各自的貢獻,研究團隊做了一組消融實驗:分別只啟用其中一個階段,另一個階段退化為均勻隨機分配,然後比較效果。
結果表明,兩個階段都有獨立的貢獻,並且它們的效果可以疊加。只用智能根節點分配(不做智能前綴擴展),平均準確率從49.5提升到49.8,有效對比率從42.8提升到49.1;只用智能前綴擴展(不做智能根節點分配),準確率提升到50.0,有效對比率提升到47.3;兩者同時啟用,準確率達到50.6,有效對比率達到52.3,是四種組合中最高的。這說明這兩個階段解決的是不同層面的問題:根節點分配負責在題目層面找到"值得練"的題,前綴擴展負責在解題過程內部找到"值得深挖"的關鍵節點。
研究團隊還測試了不同預算規模下TRACE的表現。在總練習量約為2048次的條件下,用1024道題各做2遍(廣而淺)比用512道題各做6遍(窄而深)效果更好。這背後的道理是:瓶頸不是練習次數的多少,而是這些練習是否覆蓋了足夠多的不同"狀態",讓對比有足夠的多樣性。
**十、這套方法有多"貴"**
研究團隊也仔細分析了TRACE引入的額外計算開銷,這對於實際工程落地是非常重要的考量。
測試結果令人放心。在整個訓練時間的分解中,策略優化(真正"更新AI參數"的那一步)占據了66.5%(8B模型)到75.4%(14B模型)的時間,而難度預測器的評分只占1.4%到1.9%,預測器自身的參數更新只占0.9%到1.3%。兩者合計大約2%到3%的額外開銷,換來大幅提升的訓練效率,這個代價非常划算。由於TRACE對8B和14B兩個規模的策略模型共用同一個0.6B規模的輕量級預測器,隨著策略模型規模增大,預測器的相對開銷還會進一步下降。
在系統實現上,TRACE還有一個工程上的優點:它只需要等一道題的所有初步嘗試完成之後,立刻就可以為該題啟動中間節點分叉,不需要等待其他題目做完。這避免了"一道題拖慢整批任務"的等待問題,讓並行計算效率更高。
說到底,TRACE幹的事情可以用一句話概括:把有限的練習時間花在刀刃上。傳統AI訓練就像一個學生用抽籤決定複習哪道題,很多時間花在"不用複習都會"或"怎麼複習都不會"的題上。TRACE則像一個經驗豐富的教練,提前判斷哪些題、哪些解題步驟還有"翻轉"的可能,把資源精準投放在那裡,讓每一次練習都能最大化地發揮作用。
這個思路的意義不僅限於提升準確率的幾個百分點。更深層的啟發在於:強化學習訓練的瓶頸,不只是"做多少題",更在於"做的題是否能產生有效的對比反饋"。TRACE通過把這個問題明確化、並用理論指導解決方案,為未來更大規模的AI智能體訓練提供了一個更科學的範式。
當然,TRACE也有其局限性。它目前主要針對有明確"對錯"判斷的任務設計,對於那些沒有清晰終態驗證的開放性任務,如何定義和尋找"有效對比"還是一個開放問題。難度預測器的質量直接影響預算分配的效果,而在這篇論文中,預測器的實現方式是比較基礎的,更強大的預測器設計仍是未來工作的方向。此外,實驗主要集中在數學推理、多跳問答和函數調用三類任務,以及Qwen3-8B、Qwen3-14B兩個模型,對於更複雜、更動態的智能體場景,效果還有待進一步驗證。
有興趣進一步了解技術細節的讀者,可以通過arXiv編號2606.11119查閱完整論文,原文包含了詳盡的理論證明、實驗設置說明和代碼相關描述。
Q&A
Q1:TRACE框架是什麼,解決了什麼問題?
A:TRACE是清華大學與騰訊聯合提出的強化學習訓練框架,全稱為樹狀滾出對比探索分配(Tree Rollout Allocation for Contrastive Exploration)。它解決的核心問題是:在訓練AI時,如何把有限的練習次數分配到最能產生正反對比的題目和解題步驟上,從而用同樣數量的練習讓AI學到更多東西,而不是在"太簡單"或"太難"的任務上白白浪費資源。
Q2:TRACE與普通強化學習訓練方法相比,提升幅度大概有多少?
A:在同等採樣預算下,TRACE在多跳問答任務上相比GRPO基線提升約1到2.8個百分點平均準確率;在有效對比率指標上,提升更為顯著,Qwen3-8B數學推理任務上從26.8%提升到60.6%,意味著有效利用練習資源的比例幾乎翻倍。額外引入的計算開銷僅約2%到3%,性價比較高。
Q3:TRACE中的難度預測器是如何訓練的?
A:難度預測器基於Qwen3-0.6B輕量級模型,輸入是題目或中間解題過程的歷史記錄,輸出是對最終成功概率的預測。它通過一種叫"遞歸樹支撐目標"的方式來訓練:每次做完一批練習形成樹狀結構後,用葉節點的實際對錯結果從下往上計算每個中間節點的經驗成功率,再用這些經驗值來監督預測器。預測器隨著主模型的訓練不斷更新,以適應AI能力變化帶來的難度分布變化。






