宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

港科大廣州等機構提出DRIFT:讓AI在對話中邊犯錯邊學習,效率媲美普通訓練

2026年06月04日 首頁 » 熱門科技

這項由香港科技大學(廣州)與香港中文大學(深圳)聯合開展的研究,發表於2026年第43屆國際機器學習大會(ICML 2026),論文編號為arXiv:2605.31455,有興趣深入了解的讀者可通過該編號查詢完整論文。

一、故事的起點:當AI答錯了,然後呢?

考慮這樣一個場景:你正在輔導一個孩子做數學題,孩子第一次算錯了,你告訴他"不對,再想想",孩子重新算了一遍,這次答對了。對你來說這再自然不過,但對當前的人工智慧來說,這個"犯錯-接收反饋-改正"的循環,卻是一個極其棘手的難題。

目前大多數AI助手在訓練時,只學了"被問一次答一次"的單輪對話模式。一旦用戶告訴它"你說錯了",它往往要麼固執地重複同樣的錯誤,要麼胡亂改動卻改得更糟,就像一個完全不會接受批評的學生。現實生活中,我們跟AI交流時經常需要來回好幾輪——"這不對""換個角度想想""你確定嗎"——這種多輪互動的場景,正是當前AI最薄弱的地方。

要讓AI學會這種多輪糾錯能力,研究者面臨一個兩難困境。一邊是"在線強化學習"(可以理解為讓AI在真實對話中反覆練習、實時更新自己的策略),這種方法效果好,但代價極高——每次更新都要完整地跑一遍多輪對話,計算成本隨著對話輪次增加而急劇膨脹。另一邊是"監督微調"(可以理解為直接給AI看大量優質示範答案,讓它照著學),這種方法快且省資源,但AI只是在機械模仿,並沒有真正學會如何在收到批評後做出有意義的改動,容易導致"第一輪押注過度"的問題——AI把所有精力都放在第一次答對上,後續輪次根本不知道該怎麼有效修正。

正是為了破解這個困境,港科大廣州等機構的研究團隊提出了DRIFT,全稱"解耦滾動與重要性加權微調"(Decoupled Rollouts and Importance-Weighted Fine-Tuning)。這個方法的核心思路,是找到一座橋樑,讓AI既能享受強化學習"真正學會糾錯"的效果,又能保持監督微調"省時省力"的效率。

二、理解DRIFT的核心思想:給對話評分,然後按分數學習

要理解DRIFT是如何工作的,先從一個生活化的類比出發。

假設你是一位廚藝老師,要教學生做一道菜。你有一本參考食譜(這就是AI的"參考策略"),學生按照這本食譜做了16份嘗試,每份都略有不同。有些學生第一次就做出了美味的菜,有些學生失敗了好幾次才成功,還有些學生5次都沒做好。現在你要給每份嘗試評分:越早做成功的得分越高,一直失敗的得分很低。最後,你按照這些分數來決定"這份嘗試值得參考多少"——高分的嘗試要重點學習,低分的嘗試基本忽略。

這正是DRIFT的核心邏輯。研究團隊發現了一個關鍵的數學等價關係:AI訓練中常用的一類目標函數(即"KL正則化強化學習目標",你可以把它理解為"既要表現好又不要跑太偏"的訓練目標),在數學上完全等價於一種帶權重的監督學習——也就是說,你不需要在每次訓練時都實時生成新的對話,只需要事先按照參考策略收集一批對話記錄,給每條記錄賦予一個反映其"價值"的權重,然後用這個加權數據集來訓練AI即可。

這個發現的意義在於:它徹底把"生成對話"和"訓練模型"這兩件事分開了。生成對話可以一次性離線批量完成,不需要在每次訓練更新時都重新跑;訓練本身則退化成了一個普通的監督學習問題,速度快、穩定性好。

三、DRIFT的具體運作:兩個階段,一個精妙設計

DRIFT的實際運作分為兩個清晰的階段,就像一個考試準備系統:先批量收集模擬考試記錄,再根據每次模擬的成績決定"這次模擬值得多認真地複習"。

第一個階段是離線對話生成。研究團隊固定了一個"參考模型"(即AI的初始版本,不會在這個階段更新),針對每道訓練題目,讓這個參考模型在多輪對話規則下跑16次完整的嘗試。規則很簡單:AI每次給出答案,如果答對了,本輪對話終止;如果答錯了,系統就追加一條固定的反饋資訊"不對,請再想想",然後繼續下一輪,最多進行5輪。16次嘗試會產生16條不同的對話軌跡,有的軌跡第一輪就成功,有的第三輪才成功,有的5輪全部失敗。

接下來,每條軌跡都會被計算一個"回報值"(Return)。這個回報值的設計頗具巧思,包含兩個成分。第一個成分是打折扣的成功獎勵:越早答對得分越高,第一輪就答對比第三輪才答對得分高很多,這種設計用打折係數γ來實現(γ取0到1之間的值,γ越小折扣越大)。第二個成分是多樣性懲罰:如果AI在失敗的輪次中一直重複同樣的錯誤答案,就會被額外扣分,這鼓勵AI在每次嘗試中給出不同的答案,而非陷入"複讀機"模式。綜合這兩個成分,每條軌跡都得到了一個數值化的評分。

然後,每條軌跡的權重按照"指數化的回報值除以同一題目所有軌跡的平均指數化回報值"來計算。這裡有兩個細節值得注意。其一,採用指數化處理(即e的回報次方)意味著高回報軌跡的權重會被大幅放大,而低回報軌跡幾乎被忽略,整體分布向優質軌跡傾斜。其二,用同一題目內的多條軌跡做歸一化(研究團隊稱之為"題目級歸一化"),確保不同題目之間的權重可比,避免某些特別容易的題把整個訓練拉偏。調節這種傾斜程度的溫度參數β非常關鍵,β越小,權重越集中在最優軌跡上,訓練越激進但也越不穩定;β越大,權重越均勻,訓練越保守。實驗表明β=0.1是一個較好的平衡點。

第二個階段是加權監督訓練。有了帶權重的數據集之後,訓練本身就非常標準了:對每條軌跡,取出它的最終一輪(即包含完整對話歷史的最後一次回答),用它的權重縮放交叉熵損失函數,然後用梯度下降更新模型參數。只訓練最終一輪而非所有輪次,是DRIFT的一個有趣設計。這背後的邏輯是:在"答對即停止"的協議下,中間輪次的回答都是被判定為錯誤的,如果把高權重的軌跡中所有中間輪次都當作學習目標,AI會被迫模仿那些已經被裁判否定的錯誤答案,這顯然會引入噪聲。只保留最終輪的做法雖然引入了一些偏差,但更準確地把"好軌跡的成功"歸因到真正關鍵的那一步,在實踐中表現更優。研究團隊還用數學證明了"全輪次訓練"和"僅最終輪次訓練"之間的梯度差異是有界的,並通過實驗驗證了最終輪次訓練確實收斂更快、精度更高。

四、為什麼這個方法在理論上是嚴格成立的?

DRIFT不是一個憑直覺拼湊的工程技巧,它有完整的理論支撐鏈條,研究團隊為此證明了一系列定理。

第一塊理論基石是"最優軌跡分布"的推導。研究團隊證明,如果不考慮模型參數的限制,直接問"什麼樣的概率分布能最大化期望回報同時又不偏離參考模型太多?",答案是一個非常優美的閉合公式:最優分布等於參考分布乘以指數化的回報值,再除以歸一化因子。這說明,理想中的AI應該按照"表現越好、被選中概率越高"的方式來分配概率質量,而權重的形式恰好就是指數化的回報。

第二塊理論基石是"強化學習目標等價於KL散度最小化"。研究團隊證明,最大化那個"既要表現好又不偏離參考"的目標函數,完全等價於最小化當前模型分布與上述最優分布之間的"反向KL散度"(一種衡量兩個概率分布差異的指標)。反向KL散度的計算需要在當前模型分布下採樣,這正是在線強化學習計算成本高的根源——每次模型更新後都必須重新生成數據。

第三塊理論基石是"正向KL散度可以作為替代目標"。反向KL難算,但還有一種方向相反的KL散度(正向KL),它的計算是在固定的最優分布下採樣,而非在隨時變化的當前模型下採樣。研究團隊證明了兩點:在模型足夠強大的情況下,正向和反向KL的全局最優點是完全一樣的;即使模型不夠強大無法精確達到最優,只要當前模型離最優分布不太遠,兩種KL在局部的幾何形狀(即二階導數)也是相同的,這意味著優化方向一致。這個替代就使得"從固定參考策略採樣、然後重要性加權"的離線訓練方案在理論上是合理的。

對於實際訓練中用有限樣本估計歸一化因子可能引入的誤差,研究團隊也做了嚴格分析。他們證明,只要每道題採集的軌跡數量K足夠大(具體需要多大取決於β和回報的範圍),估計誤差就可以以指數速度收斂到零。這也解釋了為什麼β不能太小:β太小會讓指數化後的回報值範圍急劇擴大,需要指數級增加的樣本量才能保持估計精度,在實踐中是不可行的。

五、實驗結果:DRIFT表現怎麼樣?

理論上站得住腳之後,更關鍵的問題是:實際效果如何?研究團隊在兩個主流大語言模型上進行了系統性測試:Qwen2.5-3B-Instruct(一個30億參數規模的中文和英文雙語模型)和Llama3.1-8B-Instruct(一個80億參數的英文模型)。訓練數據使用了MetaMathQA數據集中的MATH子集,評測則覆蓋了數學推理和通用推理兩大類基準。

評測指標採用"multi@5",即在最多5輪對話的預算內,AI最終答對的概率。這個指標同時測試了AI第一輪的基礎能力和後續輪次的糾錯能力。數學類基準包括MATH(競賽數學題集)、MATH500(500題的評測子集)和TheoremQA(需要運用定理的STEM題目);通用推理基準包括MMLU-Redux(重新標註的通用知識多選題)、MMLU-Pro(更難的多選題版本)和GPQA-diamond(研究生水平的科學問答題)。

對比的基線方法分為四類。第一類是單輪訓練方法,包括不做任何微調的基礎模型、普通監督微調(SFT)和單輪PPO強化學習。第二類是離線多輪方法,包括直接在多輪對話數據上做監督微調(SFT-5turn)和自我訓練方法STaR-2turn(只保留兩輪對話中第二輪答對的數據來訓練)。第三類是在線多輪強化學習方法,包括SCoRe-2turn(帶KL正則化的兩輪糾錯強化學習)和UFO-5turn(當前最強的多輪試錯訓練方法)。第四類就是DRIFT-5turn。

實驗結果呈現出幾個清晰的規律。單輪訓練方法在數學基準上因為提升了第一輪準確率,multi@5數字看起來還不錯,但在通用推理基準上幾乎沒有提升,因為它們根本沒有學會響應否定反饋。多輪訓練方法,無論離線還是在線,都在通用推理基準上取得了顯著提升,證明了多輪糾錯能力確實可以遷移到訓練域之外的任務。在線強化學習方法(SCoRe和UFO)普遍優於離線監督方法(SFT-5turn和STaR),這符合預期。DRIFT-5turn則與UFO-5turn大致相當,在多數基準上持平或略有超越,在Qwen2.5-3B-Instruct上的所有基準平均得分為60.5%,略高於UFO的60.2%;在Llama3.1-8B-Instruct上為55.6%,略低於UFO的56.1%。

逐輪分析揭示了更有趣的細節。研究團隊統計了每輪對話的"糾錯率",即上一輪答錯的題目中本輪答對的比例。DRIFT在前幾輪的糾錯率明顯高於其他方法,意味著它訓練出的AI能更快、更早地從錯誤中恢復,而不是把希望全部押在後期的輪次上。

六、效率對比:這才是DRIFT最大的驚喜

如果DRIFT只是和UFO性能差不多,那它的價值就是"換了個方式得到了相同結果",意義有限。DRIFT真正讓人眼前一亮的地方在於訓練效率。

研究團隊在兩種硬體配置(4塊NVIDIA A800 80G顯卡和4塊NVIDIA H20 96G顯卡)上測量了端到端的GPU時間。以Qwen2.5-3B-Instruct在A800上訓練200步為例:標準多輪SFT-5Turn耗時約3.8小時,DRIFT-5Turn耗時約4.2小時,而UFO-5Turn耗時高達14.2小時。也就是說,DRIFT只比普通SFT慢了約10%,卻比UFO快了約3.4倍。在Llama3.1-8B-Instruct上,這個差距同樣顯著:DRIFT約8.4小時,UFO約16.4小時。

隨著對話輪數增加,這個效率差距會進一步擴大。在1輪對話的設置下,SFT、DRIFT和UFO的時間差異很小;但在5輪對話下,UFO的時間急劇膨脹,而SFT和DRIFT的增幅則相對溫和。這背後的原因在於:DRIFT把多輪對話的生成完全轉移到了離線階段,且只需要進行一次;而UFO每次模型參數更新後都必須重新生成當前策略下的多輪對話,輪次越多、更新越頻繁,成本就越高。

七、各種超參數和設計選擇的影響

研究團隊對DRIFT的多個關鍵設計選擇做了細緻的消融實驗,這些實驗幫助理解為什麼DRIFT設計成現在這個樣子。

折扣因子γ控制著"早點答對比晚點答對能多得多少分"。γ越小,早成功的獎勵和晚成功的獎勵差距越大,AI的行為也越傾向於在前幾輪就解決問題,在5輪內解決所有能解決題目的速度越快。不同γ值在最終準確率上差異不大,但對每輪的解題分布影響顯著。

溫度參數β控制著權重的集中程度。β極小時(如0.0001),所有權重幾乎集中在最高分的那條軌跡上,訓練非常激進,容易不穩定;β極大時(如10.0),所有軌跡權重幾乎相同,退化成普通SFT,糾錯能力提升有限;β=0.1是一個較好的折中點,兼顧了分布的傾斜程度和訓練穩定性。

每道題採集的軌跡數量K也有顯著影響。K太小(如4)時,每組內有一半以上的題目要麼全部答對、要麼全部答錯,這種情況下所有軌跡權重相同,方法退化為普通SFT,效果就會下降;K越大,有效的"混合組"(即同一題目內既有成功也有失敗的軌跡)比例越高,權重的區分度越大,但K=64和K=128之間的差異已經不大。研究團隊最終選擇K=16作為效率和效果的平衡點。

多樣性懲罰項(即不鼓勵重複錯誤答案的那個額外扣分)對性能也有實質性貢獻。去掉這個懲罰後,AI更容易陷入"同一個錯誤一直重複"的循環,不同輪次間的答案多樣性下降,最終的5輪準確率也隨之降低。這個設計受到了另一個研究工作UFO的啟發。

反饋措辭的影響則出乎意料地小。研究團隊測試了多種不同表達的否定反饋,從簡單的"Incorrect."到較複雜的"I don't think that's correct. Try again.",結果發現性能差異非常微小,甚至更簡單的反饋(如單獨的"Incorrect.")有時表現更好。這表明DRIFT學到的不是對特定反饋措辭的機械響應,而是更通用的"接收到否定信號後重新審視並修改答案"的策略。

八、進階探索:DRIFT還能怎麼玩?

除了主實驗,研究團隊還探索了幾個有趣的擴展方向。

第一個擴展是"滾動刷新"變體。DRIFT最明顯的局限性之一是:它只用參考策略生成一次數據,如果參考策略生成不出某種有用的糾錯軌跡,那這種能力就沒有機會被學到。一個簡單的應對方案是:先用參考策略訓練100步得到一個中間檢查點,再用這個檢查點重新生成數據,然後繼續訓練100步。結果顯示,這種兩階段刷新方案比單階段DRIFT的全基準平均得分提高了約0.7個百分點(從60.5%到61.2%),說明定期刷新數據確實有幫助,但單次刷新的收益有限,更系統的刷新策略是未來工作的方向。

第二個擴展是"DRIFT作為在線強化學習的預熱"。研究團隊發現,先用DRIFT訓練100步、再用UFO訓練100步,總計200步的混合方案比純UFO訓練200步高出約2.3個百分點(62.5% vs 60.2%)。有趣的是,先用普通SFT訓練100步、再用UFO訓練100步,並沒有帶來類似的提升,甚至略差於純UFO。這說明DRIFT的價值不僅僅在於提供一個"離線熱身",它還切實改善了模型的多輪糾錯策略,為後續在線強化學習提供了更好的起點。

第三個擴展是更大模型的測試。研究團隊還在Qwen2.5-7B-Instruct(70億參數)上測試了DRIFT,結果顯示全基準平均得分從基礎模型的64.8%提升到68.3%,與UFO的67.9%相比高出約0.4個百分點,進一步驗證了DRIFT在更大規模模型上同樣有效。

九、誠實面對局限:DRIFT不是萬能的

研究團隊非常坦誠地指出了DRIFT的適用邊界,這些局限性值得單獨闡述。

DRIFT設計的核心前提是"有一個確定性的答案驗證器",即每次AI給出答案後,系統能明確判斷對錯並給出一致的反饋。這在數學題、客觀知識問答等任務上成立,但在開放性對話、主觀評價、偏好類問題等場景下不成立。此外,DRIFT目前只處理"短期內的多輪糾錯",最多5輪對話,每輪對話的內容本身並不複雜。對於需要長達數十輪乃至數百輪深度規劃的智能體任務,DRIFT的設計假設就不再合適了。

另一個局限是"知識能力的天花板"。DRIFT能教會AI如何更好地利用負反饋來修正錯誤,但它無法教給AI它本來就不具備的知識。研究團隊在GPQA的有機化學題上做了一個典型案例分析,揭示了一個令人深思的現象:基礎模型在第一輪恰好選擇了正確答案(C),但推理過程完全錯誤(用了一個化學上不可能的機制);UFO在後續輪次中陷入盲目猜答案的循環(依次猜了B→A→B→D→C);而DRIFT給出的推理雖然也存在事實錯誤,但至少是合乎情理的啟發式猜測,沒有陷入無意義的窮舉。三個模型都最終做出了某種形式的猜測,因為它們都缺乏回答該問題所需的深度領域知識。DRIFT的價值在於提供了更好的"糾錯策略",但策略的有效性必須建立在模型本身具備相關能力的基礎上。

---

歸根結底,DRIFT所做的事情,是找到了一條在兩個極端之間走平衡木的路:既不像普通監督學習那樣完全忽視回報資訊、一視同仁地模仿所有示範,也不像在線強化學習那樣每次更新都要重新與環境互動、成本高昂。它把"哪些經驗更有價值"這個判斷,通過精心設計的權重機制,融入了一個本質上簡單的訓練流程中。

這項研究的意義,不只是讓某個具體的AI系統表現更好,更在於它揭示了一個更通用的原理:強化學習的目標和監督學習的目標,在特定的數學框架下是可以精確等價的,這為未來設計高效的AI訓練算法提供了新的視角。下一次當你跟AI說"你說錯了,重新想想",背後那個讓它能夠有效學習這種反饋的訓練機制,也許就和DRIFT的思路有著某種共鳴。如果你對完整的數學推導和實驗細節感興趣,可以通過arXiv:2605.31455找到原始論文,完整閱讀這項研究的全部內容。

---

Q&A

Q1:DRIFT方法和普通多輪對話監督微調有什麼本質區別?

A:普通多輪監督微調(SFT)對所有訓練樣本一視同仁,無論某條對話軌跡是第一輪就答對還是五輪都答錯,學習時的權重都一樣。DRIFT的核心區別在於給每條軌跡計算一個基於回報的重要性權重——越早答對、越少重複錯誤的軌跡權重越高,訓練時模型會更多地向這類優質軌跡靠攏。這個權重機制在數學上等價於強化學習目標,但計算方式接近普通SFT,因此兼顧了效果和效率。

Q2:DRIFT訓練需要多少計算資源,和在線強化學習相比能省多少?

A:以Qwen2.5-3B模型在4塊NVIDIA A800顯卡上訓練200步為例,DRIFT-5Turn耗時約4.2小時,而同等設置下UFO-5Turn(當前主流在線多輪強化學習方法)耗時約14.2小時,DRIFT約快3.4倍。DRIFT的效率優勢來自於將多輪對話生成完全移到離線階段,且只生成一次,而在線方法每次更新參數後都必須重新生成當前策略的對話,輪次越多成本越高。

Q3:DRIFT在數學之外的任務上能起作用嗎?

A:DRIFT在通用推理基準(如MMLU-Redux、MMLU-Pro、GPQA)上同樣取得了明顯提升,且這些評測任務與訓練用的數學題集來自完全不同的領域,說明DRIFT學到的多輪糾錯策略有一定的遷移能力。不過,DRIFT的前提是存在一個明確的答案驗證器,對於開放性對話、主觀評價等沒有標準答案的任務,目前的框架並不適用。此外,DRIFT無法彌補模型本身的知識盲區,對於需要深度領域專業知識的問題,效果會受到基礎能力的限制。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新