這項由西北大學、亞馬遜AGI
、高通AI研究院和明尼蘇達大學聯合開展的研究,發表於2026年6月,論文編號為arXiv:2606.18910,有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。
你有沒有見過那種特別厲害的象棋高手,即便走錯了一步,也能在幾步之內把局勢扭轉回來?他們之所以厲害,不僅僅是因為走出了好棋,更是因為在走錯之後,能夠迅速識別失誤、從錯誤中恢復。現在,這個能力正在被研究者們系統地"教"給人工智慧——具體來說,是那些我們每天都在使用的大語言模型,比如ChatGPT這類能夠對話的AI系統。
這項研究提出了一套名為REVES(REvision and VErification-Augmented Training)的訓練框架,核心思路是:不僅讓AI學會答對題目,更要讓它學會在答錯之後如何聰明地糾正自己。研究成果相當亮眼——在代碼生成基準測試LiveCodeBench上,REVES比普通強化學習方法高出6.5分,比多輪對話訓練方法高出4.0分;在數學推理和複雜謎題上也有穩定提升;甚至用一個只有40億參數的小模型,就達到了其他團隊用百億級大模型才能達到的圓形填充最優解。
一、AI回答問題時究竟面臨什麼挑戰
要理解這項研究解決了什麼問題,先得明白AI在回答問題時是怎麼工作的。
通常情況下,當你向AI提問,它會給出一個答案,然後就結束了。這就像一個學生做完試卷直接交卷,沒有機會檢查和修改。研究人員把這種方式叫做"單次推理"——一次性把答案給出來,能不能答對全看這一發。
然而現實情況是,人類在處理困難問題時,很少依賴第一次的判斷。我們會回過頭檢查、反覆推敲、在發現錯誤後修正思路。於是研究者們想到,能不能讓AI也擁有這種"反覆修正"的能力?這就是所謂的"測試時擴展"——在AI回答問題的過程中,給它更多思考和修正的機會,看看能不能得到更好的結果。
現有的一些做法已經在探索這個方向。"序列修正"讓AI多次嘗試,每次根據上一次的結果和反饋來調整答案;"樹狀搜索"讓AI像下棋一樣探索多種可能的答案路徑;"進化式優化"則模擬自然選擇,讓好答案不斷演化改進。這些方法都有一個共同點:AI不只是給出一個答案,而是經歷多輪推敲。
但問題來了——這些方法在使用AI的時候,AI本身並沒有被特別訓練過去適應這種"多輪修正"的場景。就好比你買了一本教做蛋糕的書,但書里所有食譜都是按照單爐一次烤好設計的,沒有任何"如果這爐烤糊了怎麼補救"的內容。現有的AI訓練方式,本質上都在優化"第一次答對",而不是"答錯了之後如何優雅地糾正"。
這種不匹配就是REVES要解決的核心問題。
二、舊方法為何走入了死胡同
在深入理解REVES的創新之前,有必要搞清楚研究者們之前嘗試過什麼,以及為什麼不夠好。
最直接的想法是"多輪強化學習"——讓AI進行多次嘗試,把整個答題過程當作一個遊戲來訓練,最終答對了就給獎勵。這聽起來合情合理,但裡面藏著一個微妙的陷阱。
設想這樣一個場景:AI在嘗試解決一道難題時,第一次答錯了,第二次還是答錯,第三次終於答對了。在這種"錯錯對"的訓練模式下,系統會認為整個過程是成功的,於是把獎勵分配給了這三次嘗試中的每一次——包括那兩次答錯的嘗試。也就是說,AI學到的是"這種答錯方式是好的",因為它曾經出現在成功的軌跡上。
這就好像一個學生每次考試前都猜題,有一次恰好猜對了,老師於是把這次考前猜題的所有行為都表揚了一遍,包括那些猜錯的題。從長遠來看,這樣的反饋是混亂的,學生並不會因此真正學會如何判斷題目。
研究人員把這個問題稱為"路徑依賴的信用分配偏差"——獎勵是根據整條路徑的終點來分配的,而不是根據每一步的真實價值。這種偏差在單次看來不明顯,但積累下來,會導致AI對"如何從錯誤中真正恢復"的理解非常模糊。
另一個問題是效率。多輪強化學習需要AI每一步都實時生成下一步的內容,這個過程是串行的,無法並行加速,計算成本極高,速度極慢。
REVES的出發點,正是要從根本上繞開這兩個問題。
三、REVES的核心邏輯:把錯誤變成寶貴的練習素材
REVES背後有一個非常優雅的數學發現,研究團隊將其稱為"危險分解引理"(Lemma 4.1)。用通俗的話來說,這個發現揭示了一件事:AI在多輪修正過程中的整體成功概率,可以被拆解成每一個"錯誤狀態"上的單步恢復概率之和。
換句話說,如果AI在某個錯誤答案的基礎上,有更高的概率在下一步給出正確答案,那麼整體的多輪修正成功率就會提升。這意味著,不需要關注整條複雜的答題路徑,只需要專注於每一個具體的錯誤節點,讓AI在那個節點上練習"如何糾正"就夠了。
這個發現的意義在於,它把一個複雜的多輪問題,分解成了很多個簡單的單步問題。就像一個複雜的樂曲,與其讓學生從頭到尾反覆練習整首曲子,不如把每一個難點小節單獨拿出來,讓學生專門練習那些出錯的地方。這樣的練習效率更高,反饋也更準確。
基於這個洞察,REVES設計了一個兩階段循環框架。
第一階段是"數據增強"。在每一輪訓練開始前,研究團隊會讓當前的AI模型去嘗試解決一批問題,採用序列修正的方式——一次次地嘗試,直到答對或者達到最大嘗試次數。然後,系統只保留那些"最終答對了"的路徑,但重點關注路徑中間那些答錯的步驟。那些中間的錯誤答案,就是最寶貴的訓練素材——它們是真實的"失誤",而且已經被證明是可以從中恢復的失誤(因為後來答對了)。系統把這些中間錯誤答案轉化成兩類訓練樣本:一類是"修正提示",讓AI練習如何把一個錯誤答案改成正確答案;另一類是"驗證提示",讓AI練習如何判斷一個答案是對還是錯。
第二階段是"單步強化學習"。把第一階段產生的這些修正提示和驗證提示,混合進原始的訓練數據中,用普通的單步強化學習來訓練AI。每次訓練都只處理一個(提示,回答)對,而不是整個多輪對話序列,這樣信用分配就變得清晰——答對了就是好,答錯了就是差,不存在路徑混亂的問題。訓練完成後,新的模型進入下一輪循環,重新生成數據,繼續疊代。
這個框架有一個非常重要的細節:數據增強必須在每一輪訓練後重新進行,而不能只做一次然後一直用。道理很直觀——隨著AI模型不斷改進,它犯的錯誤也會發生變化。上一輪訓練時產生的錯誤案例,在這一輪可能已經不再是AI的弱點了,那些樣本對訓練的幫助就會變得很有限。只有持續刷新訓練數據,才能讓每一輪的練習都聚焦在當前AI最需要提升的地方。實驗結果清晰地證明了這一點:只做一次數據增強與每輪都刷新相比,性能差距非常顯著。
四、理論保障:為什麼訓練序列修正能讓所有修正策略都變好
研究團隊不僅給出了方法,還給出了嚴謹的理論證明,說明為什麼專門針對"序列修正"進行訓練,能夠讓其他各種多輪推理策略也受益。
核心定理(Theorem 3.1)大意是:如果一個AI在序列修正場景下的"單步恢復能力"提升了,那麼任何依賴修正操作的測試時策略(包括樹狀搜索、進化式優化等)的整體表現也會相應提升——前提是這些策略在運作時會訪問和序列修正相似的"狀態"。
這個道理並不難理解。無論是樹狀搜索還是進化式優化,它們在運作的某一刻,都需要AI在一個已有的錯誤答案基礎上,產生一個更好的修正版本。如果AI本身的"看到一個錯誤答案然後給出更好答案"的能力變強了,那麼所有調用這個能力的策略,自然都會變得更有效。
研究團隊還證明了另一件事(Theorem 3.2):優化單次答題的成功率,和優化序列修正的成功率,是兩個本質不同的目標。理論上完全可以存在兩個AI,它們在單次回答時的成功率完全一樣,但在多輪修正場景下的表現卻差距很大。這說明,如果想讓AI在實際應用中表現更好(而實際應用往往允許多次嘗試),就必須專門針對多輪修正場景來訓練,僅僅優化單次答題是不夠的。
五、實驗結果:從寫代碼到裝圓形,REVES表現如何
研究團隊在多個截然不同的任務上驗證了REVES的效果,涵蓋代碼生成、數學推理、益智謎題和一個頗為特別的幾何優化任務。
在代碼生成方面,研究團隊使用了LiveCodeBench(一個持續更新的代碼挑戰平台,包含2024年8月到2025年5月的題目)和CodeContest(競賽級別的編程題庫)。測試時,AI會生成代碼,通過公開的測試用例來驗證代碼是否正確,如果不通過就會收到報錯資訊,然後根據這些資訊修正代碼,最多嘗試32次。
在這個場景下,REVES訓練出的模型表現持續領先。以Qwen3-4B這個模型為例,經過REVES訓練後,在LiveCodeBench的多輪修正場景(32次嘗試上限)下,得分達到50.9,比普通強化學習的41.7高出9.2分,比多輪對話訓練的49.5也略有提升,比PAG方法的43.6高出更多。在另一個測試集(2025年1月到5月)上,REVES達到42.0,依然是所有對比方法中最高的。
在數學推理方面,使用了MATH500(500道各種難度數學題)和AIME 24/25(美國數學邀請賽題目,相當有挑戰性)。有兩種測試模式:一種是"理想停止"——只要AI給出了正確答案就立刻停止,用於測量AI的修正潛力上限;另一種是"自信心停止"——AI根據自己對答案的置信度來決定什麼時候停止修正,這更接近實際使用場景。
在理想停止模式下,REVES的優勢非常突出。以Qwen-2.5-7B模型在AIME24上的表現為例,經過REVES訓練後,32次嘗試的成功率達到45.7%,而普通強化學習只有33.5%,多輪對話訓練是30.3%,PAG是31.1%。差距相當顯著。在MATH500上,32次嘗試的成功率達到94.7%,比普通強化學習的85.9%高出將近9個百分點。
在驗證提示的作用方面,研究團隊做了一個細緻的拆解實驗。他們分別只使用修正提示(不加驗證訓練)和只使用驗證提示(不加修正訓練)來訓練模型,發現修正提示是提升修正能力的核心,驗證提示的主要貢獻在於提升AI對自己答案的置信度估計準確性——即AI能更好地判斷自己到底答對沒有。當兩者結合(也就是REVES的完整版本),AI的置信度校準(AUROC從72.1%提升到74.1%)和修正能力同時提升,在實際使用場景下(需要AI自己決定何時停止)效果最好。
圓形填充挑戰是這篇論文中最令人印象深刻的實驗之一。這個任務是:在一個正方形里,儘可能多地塞入不重疊的圓形,讓所有圓的半徑之和最大。看起來是個幾何題,實際上是一個極其困難的優化問題,研究人員通常用進化算法和大型AI系統來探索最優解。
研究團隊用谷歌DeepMind的AlphaEvolve(基於Gemini-2.0 Pro + Flash)和其他多個系統作為對比。這些系統用了遠比REVES更大的模型、更多的計算資源,在n=26(26個圓)的實例上達到的最優解是2.635983。而REVES使用Qwen3-4B這個只有40億參數的小模型,同樣達到了2.635983的最優解,與那些動用百億參數大模型的系統打成平手。這個結果說明,REVES的訓練方式帶來的能力提升,在某些場景下可以彌補模型規模上的巨大差距。
六、泛化能力:訓練數學和代碼,卻能解決從未見過的謎題
研究團隊還測試了一件特別有意思的事:REVES訓練出的模型,能不能解決從來沒有在訓練中見過的新類型問題?
他們選取了兩個益智謎題作為測試:n皇后問題(在棋盤上放置若干個皇后,使得它們互相不攻擊)和迷你數獨(小版本的數獨遊戲)。這兩類問題的訓練數據里一條都沒有,模型只用數學題和代碼題訓練過。
測試結果令人寬慰。使用REVES訓練的Qwen-2.5-7B模型,在n皇后問題上的準確率達到59%,在迷你數獨上達到73.3%,大幅領先未經REVES訓練的版本(分別是42.5%和35%)。這說明REVES訓練的不是"如何解特定類型的題",而是一種通用的"發現錯誤並糾正"的能力,這種能力可以遷移到從未接觸過的任務上。
七、效率優勢:比多輪訓練快,還能並行運行
除了效果,REVES在計算效率上也有明顯優勢。研究團隊在8張英偉達
H200 GPU上進行了對比測試,REVES完成三輪完整疊代只需要約30小時,而同等設置下的多輪強化學習方法需要超過48小時。
效率提升來自兩個方面。其一,REVES的第二階段訓練(Stage II)是純單步的,每次只處理一個提示和一個回答,不需要在訓練過程中串行生成多步內容。其二,第一階段的數據生成(Stage I)和第二階段的訓練(Stage II)理論上可以並行運行——Stage II在用上一輪的數據訓練時,Stage I可以同時用新模型生成下一輪的數據,兩個階段不需要完全串行等待。研究團隊指出,在更精心設計的基礎設施下,這種並行化可以帶來更大的加速。
同時,研究團隊還發現,增加數據增強的預算(也就是每個問題允許AI嘗試多少輪來生成訓練樣本)會穩定地提升模型性能,說明這個方向存在良好的規模化潛力——願意投入更多計算資源,就能得到更好的模型。
說到底,REVES做的事情,本質上是一種教育學上很樸素的道理:與其讓學生不斷重複做完整套題,不如把他們答錯的題單獨拿出來,有針對性地練習糾錯。研究團隊把這個樸素的想法,嚴格地建立在數學理論之上,用實驗證明了它在AI訓練中同樣管用。
這項研究對普通人的意義在於,未來我們使用的AI助手在回答錯誤之後,將更有能力認識到自己的錯誤並給出更好的修正,而不是固執地堅持原來的錯誤答案,或者給出看上去"很自信"實則依然錯誤的修正。對於需要精確答案的場景——比如寫代碼、做數學題、解決規劃問題——這種能力的提升是實實在在的。
值得思考的是,這項研究還揭示了一個更深層的問題:我們現在訓練AI的方式,和我們實際使用AI的方式,之間往往存在錯位。REVES是彌合這種錯位的一次嘗試,但更廣泛的問題依然開放——當AI被用於更複雜、更長期的任務時,如何設計訓練目標才能真正與實際使用場景對齊?這個問題留給研究界,也留給每一個關注AI發展的人去思考。有興趣深入了解這項研究完整細節的讀者,可以通過arXiv:2606.18910查閱原論文。
Q&A
Q1:REVES是什麼,它與普通的強化學習訓練有什麼區別?
A:REVES是一套專門針對AI多輪修正能力設計的訓練框架。普通強化學習只訓練AI"第一次答對",而REVES通過將AI答錯的中間步驟提取出來,轉化為專門的修正和驗證練習樣本,讓AI學會如何在答錯之後聰明地糾正自己,從而在需要多次嘗試的實際使用場景中表現更好。
Q2:REVES訓練出的AI模型在解決數學和代碼問題時具體提升了多少?
A:在代碼生成基準LiveCodeBench上,REVES比普通強化學習方法高出約6.5分,比多輪對話訓練高出約4.0分。在數學推理方面,Qwen-2.5-7B經過REVES訓練後,在AIME24的多輪修正場景下成功率從33.5%提升至45.7%,在MATH500上從85.9%提升至94.7%,提升幅度相當顯著。
Q3:為什麼REVES訓練數據增強必須每輪都重新生成,而不能一次生成後反覆使用?
A:因為隨著AI模型不斷改進,它犯的錯誤類型也會發生變化。上一輪產生的錯誤案例,在當前模型中可能已經不再是弱點,繼續用這些過時樣本訓練等於在重複練習已經掌握的內容,效果很差。每輪重新生成確保訓練數據始終聚焦在當前模型最需要提升的薄弱環節。實驗結果也清晰顯示,持續更新數據的效果顯著優於只做一次數據增強。






