港科大廣州等機構提出DRIFT：讓AI在對話中邊犯錯邊學習，效率媲美普通訓練

這項由香港科技大學（廣州）與香港中文大學（深圳）聯合開展的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2605.31455，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

一、故事的起點：當AI答錯了，然後呢？

考慮這樣一個場景：你正在輔導一個孩子做數學題，孩子第一次算錯了，你告訴他"不對，再想想"，孩子重新算了一遍，這次答對了。對你來說這再自然不過，但對當前的人工智慧來說，這個"犯錯-接收反饋-改正"的循環，卻是一個極其棘手的難題。

目前大多數AI助手在訓練時，只學了"被問一次答一次"的單輪對話模式。一旦用戶告訴它"你說錯了"，它往往要麼固執地重複同樣的錯誤，要麼胡亂改動卻改得更糟，就像一個完全不會接受批評的學生。現實生活中，我們跟AI交流時經常需要來回好幾輪——"這不對""換個角度想想""你確定嗎"——這種多輪互動的場景，正是當前AI最薄弱的地方。

要讓AI學會這種多輪糾錯能力，研究者面臨一個兩難困境。一邊是"在線強化學習"（可以理解為讓AI在真實對話中反覆練習、實時更新自己的策略），這種方法效果好，但代價極高——每次更新都要完整地跑一遍多輪對話，計算成本隨著對話輪次增加而急劇膨脹。另一邊是"監督微調"（可以理解為直接給AI看大量優質示範答案，讓它照著學），這種方法快且省資源，但AI只是在機械模仿，並沒有真正學會如何在收到批評後做出有意義的改動，容易導致"第一輪押注過度"的問題——AI把所有精力都放在第一次答對上，後續輪次根本不知道該怎麼有效修正。

正是為了破解這個困境，港科大廣州等機構的研究團隊提出了DRIFT，全稱"解耦滾動與重要性加權微調"（Decoupled Rollouts and Importance-Weighted Fine-Tuning）。這個方法的核心思路，是找到一座橋樑，讓AI既能享受強化學習"真正學會糾錯"的效果，又能保持監督微調"省時省力"的效率。

贊助商廣告

二、理解DRIFT的核心思想：給對話評分，然後按分數學習

要理解DRIFT是如何工作的，先從一個生活化的類比出發。

假設你是一位廚藝老師，要教學生做一道菜。你有一本參考食譜（這就是AI的"參考策略"），學生按照這本食譜做了16份嘗試，每份都略有不同。有些學生第一次就做出了美味的菜，有些學生失敗了好幾次才成功，還有些學生5次都沒做好。現在你要給每份嘗試評分：越早做成功的得分越高，一直失敗的得分很低。最後，你按照這些分數來決定"這份嘗試值得參考多少"——高分的嘗試要重點學習，低分的嘗試基本忽略。

這正是DRIFT的核心邏輯。研究團隊發現了一個關鍵的數學等價關係：AI訓練中常用的一類目標函數（即"KL正則化強化學習目標"，你可以把它理解為"既要表現好又不要跑太偏"的訓練目標），在數學上完全等價於一種帶權重的監督學習——也就是說，你不需要在每次訓練時都實時生成新的對話，只需要事先按照參考策略收集一批對話記錄，給每條記錄賦予一個反映其"價值"的權重，然後用這個加權數據集來訓練AI即可。

這個發現的意義在於：它徹底把"生成對話"和"訓練模型"這兩件事分開了。生成對話可以一次性離線批量完成，不需要在每次訓練更新時都重新跑；訓練本身則退化成了一個普通的監督學習問題，速度快、穩定性好。

三、DRIFT的具體運作：兩個階段，一個精妙設計

DRIFT的實際運作分為兩個清晰的階段，就像一個考試準備系統：先批量收集模擬考試記錄，再根據每次模擬的成績決定"這次模擬值得多認真地複習"。

第一個階段是離線對話生成。研究團隊固定了一個"參考模型"（即AI的初始版本，不會在這個階段更新），針對每道訓練題目，讓這個參考模型在多輪對話規則下跑16次完整的嘗試。規則很簡單：AI每次給出答案，如果答對了，本輪對話終止；如果答錯了，系統就追加一條固定的反饋資訊"不對，請再想想"，然後繼續下一輪，最多進行5輪。16次嘗試會產生16條不同的對話軌跡，有的軌跡第一輪就成功，有的第三輪才成功，有的5輪全部失敗。

贊助商廣告

接下來，每條軌跡都會被計算一個"回報值"（Return）。這個回報值的設計頗具巧思，包含兩個成分。第一個成分是打折扣的成功獎勵：越早答對得分越高，第一輪就答對比第三輪才答對得分高很多，這種設計用打折係數γ來實現（γ取0到1之間的值，γ越小折扣越大）。第二個成分是多樣性懲罰：如果AI在失敗的輪次中一直重複同樣的錯誤答案，就會被額外扣分，這鼓勵AI在每次嘗試中給出不同的答案，而非陷入"複讀機"模式。綜合這兩個成分，每條軌跡都得到了一個數值化的評分。

然後，每條軌跡的權重按照"指數化的回報值除以同一題目所有軌跡的平均指數化回報值"來計算。這裡有兩個細節值得注意。其一，採用指數化處理（即e的回報次方）意味著高回報軌跡的權重會被大幅放大，而低回報軌跡幾乎被忽略，整體分布向優質軌跡傾斜。其二，用同一題目內的多條軌跡做歸一化（研究團隊稱之為"題目級歸一化"），確保不同題目之間的權重可比，避免某些特別容易的題把整個訓練拉偏。調節這種傾斜程度的溫度參數β非常關鍵，β越小，權重越集中在最優軌跡上，訓練越激進但也越不穩定；β越大，權重越均勻，訓練越保守。實驗表明β=0.1是一個較好的平衡點。

第二個階段是加權監督訓練。有了帶權重的數據集之後，訓練本身就非常標準了：對每條軌跡，取出它的最終一輪（即包含完整對話歷史的最後一次回答），用它的權重縮放交叉熵損失函數，然後用梯度下降更新模型參數。只訓練最終一輪而非所有輪次，是DRIFT的一個有趣設計。這背後的邏輯是：在"答對即停止"的協議下，中間輪次的回答都是被判定為錯誤的，如果把高權重的軌跡中所有中間輪次都當作學習目標，AI會被迫模仿那些已經被裁判否定的錯誤答案，這顯然會引入噪聲。只保留最終輪的做法雖然引入了一些偏差，但更準確地把"好軌跡的成功"歸因到真正關鍵的那一步，在實踐中表現更優。研究團隊還用數學證明了"全輪次訓練"和"僅最終輪次訓練"之間的梯度差異是有界的，並通過實驗驗證了最終輪次訓練確實收斂更快、精度更高。

贊助商廣告

四、為什麼這個方法在理論上是嚴格成立的？

DRIFT不是一個憑直覺拼湊的工程技巧，它有完整的理論支撐鏈條，研究團隊為此證明了一系列定理。

第一塊理論基石是"最優軌跡分布"的推導。研究團隊證明，如果不考慮模型參數的限制，直接問"什麼樣的概率分布能最大化期望回報同時又不偏離參考模型太多？"，答案是一個非常優美的閉合公式：最優分布等於參考分布乘以指數化的回報值，再除以歸一化因子。這說明，理想中的AI應該按照"表現越好、被選中概率越高"的方式來分配概率質量，而權重的形式恰好就是指數化的回報。

第二塊理論基石是"強化學習目標等價於KL散度最小化"。研究團隊證明，最大化那個"既要表現好又不偏離參考"的目標函數，完全等價於最小化當前模型分布與上述最優分布之間的"反向KL散度"（一種衡量兩個概率分布差異的指標）。反向KL散度的計算需要在當前模型分布下採樣，這正是在線強化學習計算成本高的根源——每次模型更新後都必須重新生成數據。

第三塊理論基石是"正向KL散度可以作為替代目標"。反向KL難算，但還有一種方向相反的KL散度（正向KL），它的計算是在固定的最優分布下採樣，而非在隨時變化的當前模型下採樣。研究團隊證明了兩點：在模型足夠強大的情況下，正向和反向KL的全局最優點是完全一樣的；即使模型不夠強大無法精確達到最優，只要當前模型離最優分布不太遠，兩種KL在局部的幾何形狀（即二階導數）也是相同的，這意味著優化方向一致。這個替代就使得"從固定參考策略採樣、然後重要性加權"的離線訓練方案在理論上是合理的。

對於實際訓練中用有限樣本估計歸一化因子可能引入的誤差，研究團隊也做了嚴格分析。他們證明，只要每道題採集的軌跡數量K足夠大（具體需要多大取決於β和回報的範圍），估計誤差就可以以指數速度收斂到零。這也解釋了為什麼β不能太小：β太小會讓指數化後的回報值範圍急劇擴大，需要指數級增加的樣本量才能保持估計精度，在實踐中是不可行的。

贊助商廣告

五、實驗結果：DRIFT表現怎麼樣？

理論上站得住腳之後，更關鍵的問題是：實際效果如何？研究團隊在兩個主流大語言模型上進行了系統性測試：Qwen2.5-3B-Instruct（一個30億參數規模的中文和英文雙語模型）和Llama3.1-8B-Instruct（一個80億參數的英文模型）。訓練數據使用了MetaMathQA數據集中的MATH子集，評測則覆蓋了數學推理和通用推理兩大類基準。

評測指標採用"multi@5"，即在最多5輪對話的預算內，AI最終答對的概率。這個指標同時測試了AI第一輪的基礎能力和後續輪次的糾錯能力。數學類基準包括MATH（競賽數學題集）、MATH500（500題的評測子集）和TheoremQA（需要運用定理的STEM題目）；通用推理基準包括MMLU-Redux（重新標註的通用知識多選題）、MMLU-Pro（更難的多選題版本）和GPQA-diamond（研究生水平的科學問答題）。

對比的基線方法分為四類。第一類是單輪訓練方法，包括不做任何微調的基礎模型、普通監督微調（SFT）和單輪PPO強化學習。第二類是離線多輪方法，包括直接在多輪對話數據上做監督微調（SFT-5turn）和自我訓練方法STaR-2turn（只保留兩輪對話中第二輪答對的數據來訓練）。第三類是在線多輪強化學習方法，包括SCoRe-2turn（帶KL正則化的兩輪糾錯強化學習）和UFO-5turn（當前最強的多輪試錯訓練方法）。第四類就是DRIFT-5turn。

實驗結果呈現出幾個清晰的規律。單輪訓練方法在數學基準上因為提升了第一輪準確率，multi@5數字看起來還不錯，但在通用推理基準上幾乎沒有提升，因為它們根本沒有學會響應否定反饋。多輪訓練方法，無論離線還是在線，都在通用推理基準上取得了顯著提升，證明了多輪糾錯能力確實可以遷移到訓練域之外的任務。在線強化學習方法（SCoRe和UFO）普遍優於離線監督方法（SFT-5turn和STaR），這符合預期。DRIFT-5turn則與UFO-5turn大致相當，在多數基準上持平或略有超越，在Qwen2.5-3B-Instruct上的所有基準平均得分為60.5%，略高於UFO的60.2%；在Llama3.1-8B-Instruct上為55.6%，略低於UFO的56.1%。

贊助商廣告

逐輪分析揭示了更有趣的細節。研究團隊統計了每輪對話的"糾錯率"，即上一輪答錯的題目中本輪答對的比例。DRIFT在前幾輪的糾錯率明顯高於其他方法，意味著它訓練出的AI能更快、更早地從錯誤中恢復，而不是把希望全部押在後期的輪次上。

六、效率對比：這才是DRIFT最大的驚喜

如果DRIFT只是和UFO性能差不多，那它的價值就是"換了個方式得到了相同結果"，意義有限。DRIFT真正讓人眼前一亮的地方在於訓練效率。

研究團隊在兩種硬體配置（4塊NVIDIA A800 80G顯卡和4塊NVIDIA H20 96G顯卡）上測量了端到端的GPU時間。以Qwen2.5-3B-Instruct在A800上訓練200步為例：標準多輪SFT-5Turn耗時約3.8小時，DRIFT-5Turn耗時約4.2小時，而UFO-5Turn耗時高達14.2小時。也就是說，DRIFT只比普通SFT慢了約10%，卻比UFO快了約3.4倍。在Llama3.1-8B-Instruct上，這個差距同樣顯著：DRIFT約8.4小時，UFO約16.4小時。

隨著對話輪數增加，這個效率差距會進一步擴大。在1輪對話的設置下，SFT、DRIFT和UFO的時間差異很小；但在5輪對話下，UFO的時間急劇膨脹，而SFT和DRIFT的增幅則相對溫和。這背後的原因在於：DRIFT把多輪對話的生成完全轉移到了離線階段，且只需要進行一次；而UFO每次模型參數更新後都必須重新生成當前策略下的多輪對話，輪次越多、更新越頻繁，成本就越高。

七、各種超參數和設計選擇的影響

研究團隊對DRIFT的多個關鍵設計選擇做了細緻的消融實驗，這些實驗幫助理解為什麼DRIFT設計成現在這個樣子。

折扣因子γ控制著"早點答對比晚點答對能多得多少分"。γ越小，早成功的獎勵和晚成功的獎勵差距越大，AI的行為也越傾向於在前幾輪就解決問題，在5輪內解決所有能解決題目的速度越快。不同γ值在最終準確率上差異不大，但對每輪的解題分布影響顯著。

溫度參數β控制著權重的集中程度。β極小時（如0.0001），所有權重幾乎集中在最高分的那條軌跡上，訓練非常激進，容易不穩定；β極大時（如10.0），所有軌跡權重幾乎相同，退化成普通SFT，糾錯能力提升有限；β=0.1是一個較好的折中點，兼顧了分布的傾斜程度和訓練穩定性。

贊助商廣告

每道題採集的軌跡數量K也有顯著影響。K太小（如4）時，每組內有一半以上的題目要麼全部答對、要麼全部答錯，這種情況下所有軌跡權重相同，方法退化為普通SFT，效果就會下降；K越大，有效的"混合組"（即同一題目內既有成功也有失敗的軌跡）比例越高，權重的區分度越大，但K=64和K=128之間的差異已經不大。研究團隊最終選擇K=16作為效率和效果的平衡點。

多樣性懲罰項（即不鼓勵重複錯誤答案的那個額外扣分）對性能也有實質性貢獻。去掉這個懲罰後，AI更容易陷入"同一個錯誤一直重複"的循環，不同輪次間的答案多樣性下降，最終的5輪準確率也隨之降低。這個設計受到了另一個研究工作UFO的啟發。

反饋措辭的影響則出乎意料地小。研究團隊測試了多種不同表達的否定反饋，從簡單的"Incorrect."到較複雜的"I don't think that's correct. Try again."，結果發現性能差異非常微小，甚至更簡單的反饋（如單獨的"Incorrect."）有時表現更好。這表明DRIFT學到的不是對特定反饋措辭的機械響應，而是更通用的"接收到否定信號後重新審視並修改答案"的策略。

八、進階探索：DRIFT還能怎麼玩？

除了主實驗，研究團隊還探索了幾個有趣的擴展方向。

第一個擴展是"滾動刷新"變體。DRIFT最明顯的局限性之一是：它只用參考策略生成一次數據，如果參考策略生成不出某種有用的糾錯軌跡，那這種能力就沒有機會被學到。一個簡單的應對方案是：先用參考策略訓練100步得到一個中間檢查點，再用這個檢查點重新生成數據，然後繼續訓練100步。結果顯示，這種兩階段刷新方案比單階段DRIFT的全基準平均得分提高了約0.7個百分點（從60.5%到61.2%），說明定期刷新數據確實有幫助，但單次刷新的收益有限，更系統的刷新策略是未來工作的方向。

第二個擴展是"DRIFT作為在線強化學習的預熱"。研究團隊發現，先用DRIFT訓練100步、再用UFO訓練100步，總計200步的混合方案比純UFO訓練200步高出約2.3個百分點（62.5% vs 60.2%）。有趣的是，先用普通SFT訓練100步、再用UFO訓練100步，並沒有帶來類似的提升，甚至略差於純UFO。這說明DRIFT的價值不僅僅在於提供一個"離線熱身"，它還切實改善了模型的多輪糾錯策略，為後續在線強化學習提供了更好的起點。

贊助商廣告

第三個擴展是更大模型的測試。研究團隊還在Qwen2.5-7B-Instruct（70億參數）上測試了DRIFT，結果顯示全基準平均得分從基礎模型的64.8%提升到68.3%，與UFO的67.9%相比高出約0.4個百分點，進一步驗證了DRIFT在更大規模模型上同樣有效。

九、誠實面對局限：DRIFT不是萬能的

研究團隊非常坦誠地指出了DRIFT的適用邊界，這些局限性值得單獨闡述。

DRIFT設計的核心前提是"有一個確定性的答案驗證器"，即每次AI給出答案後，系統能明確判斷對錯並給出一致的反饋。這在數學題、客觀知識問答等任務上成立，但在開放性對話、主觀評價、偏好類問題等場景下不成立。此外，DRIFT目前只處理"短期內的多輪糾錯"，最多5輪對話，每輪對話的內容本身並不複雜。對於需要長達數十輪乃至數百輪深度規劃的智能體任務，DRIFT的設計假設就不再合適了。

另一個局限是"知識能力的天花板"。DRIFT能教會AI如何更好地利用負反饋來修正錯誤，但它無法教給AI它本來就不具備的知識。研究團隊在GPQA的有機化學題上做了一個典型案例分析，揭示了一個令人深思的現象：基礎模型在第一輪恰好選擇了正確答案（C），但推理過程完全錯誤（用了一個化學上不可能的機制）；UFO在後續輪次中陷入盲目猜答案的循環（依次猜了B→A→B→D→C）；而DRIFT給出的推理雖然也存在事實錯誤，但至少是合乎情理的啟發式猜測，沒有陷入無意義的窮舉。三個模型都最終做出了某種形式的猜測，因為它們都缺乏回答該問題所需的深度領域知識。DRIFT的價值在於提供了更好的"糾錯策略"，但策略的有效性必須建立在模型本身具備相關能力的基礎上。

---

歸根結底，DRIFT所做的事情，是找到了一條在兩個極端之間走平衡木的路：既不像普通監督學習那樣完全忽視回報資訊、一視同仁地模仿所有示範，也不像在線強化學習那樣每次更新都要重新與環境互動、成本高昂。它把"哪些經驗更有價值"這個判斷，通過精心設計的權重機制，融入了一個本質上簡單的訓練流程中。

贊助商廣告

這項研究的意義，不只是讓某個具體的AI系統表現更好，更在於它揭示了一個更通用的原理：強化學習的目標和監督學習的目標，在特定的數學框架下是可以精確等價的，這為未來設計高效的AI訓練算法提供了新的視角。下一次當你跟AI說"你說錯了，重新想想"，背後那個讓它能夠有效學習這種反饋的訓練機制，也許就和DRIFT的思路有著某種共鳴。如果你對完整的數學推導和實驗細節感興趣，可以通過arXiv:2605.31455找到原始論文，完整閱讀這項研究的全部內容。

---

Q&A

Q1：DRIFT方法和普通多輪對話監督微調有什麼本質區別？

A：普通多輪監督微調（SFT）對所有訓練樣本一視同仁，無論某條對話軌跡是第一輪就答對還是五輪都答錯，學習時的權重都一樣。DRIFT的核心區別在於給每條軌跡計算一個基於回報的重要性權重——越早答對、越少重複錯誤的軌跡權重越高，訓練時模型會更多地向這類優質軌跡靠攏。這個權重機制在數學上等價於強化學習目標，但計算方式接近普通SFT，因此兼顧了效果和效率。

Q2：DRIFT訓練需要多少計算資源，和在線強化學習相比能省多少？

A：以Qwen2.5-3B模型在4塊NVIDIA A800顯卡上訓練200步為例，DRIFT-5Turn耗時約4.2小時，而同等設置下UFO-5Turn（當前主流在線多輪強化學習方法）耗時約14.2小時，DRIFT約快3.4倍。DRIFT的效率優勢來自於將多輪對話生成完全移到離線階段，且只生成一次，而在線方法每次更新參數後都必須重新生成當前策略的對話，輪次越多成本越高。

Q3：DRIFT在數學之外的任務上能起作用嗎？

A：DRIFT在通用推理基準（如MMLU-Redux、MMLU-Pro、GPQA）上同樣取得了明顯提升，且這些評測任務與訓練用的數學題集來自完全不同的領域，說明DRIFT學到的多輪糾錯策略有一定的遷移能力。不過，DRIFT的前提是存在一個明確的答案驗證器，對於開放性對話、主觀評價等沒有標準答案的任務，目前的框架並不適用。此外，DRIFT無法彌補模型本身的知識盲區，對於需要深度領域專業知識的問題，效果會受到基礎能力的限制。

贊助商廣告