這項由螞蟻集團Inclusion AI、浙江大學、上海創新研究院與西湖大學聯合開展的研究,以預印本形式發布於2026年6月17日,論文編號為arXiv:2606.19047,感興趣的讀者可以通過該編號查閱完整論文。
**一、教練手裡的題庫用完了**
假設你正在備考一場數學考試,你的教練手裡有一套500道練習題。一開始,你做每道題都很吃力,每次做完題、看答案、找錯誤,都能學到新東西,進步飛快。可當你把這500道題全都做熟了,再做同樣的題就毫無意義——不是太簡單全對,就是太難完全不會,兩種情況都無法幫你繼續進步。這時候,教練要麼得出新題,要麼就只能眼睜睜看著你的備考停滯不前。
這正是當前AI大模型訓練面臨的核心困境。研究人員正在訓練一類叫做"多輪工具調用智能體"的AI——通俗地說,就是能夠通過多次來回對話、調用各種外部工具(比如查天氣、查股票、操作文件系統)來幫用戶完成複雜任務的AI助手。訓練這類AI需要大量真實的多輪對話數據,但高質量的訓練數據極度稀缺,比如業界著名的BFCL V3測試集裡只有800條樣本——這對於訓練來說遠遠不夠。
更麻煩的是,即使有了這些數據,隨著AI模型能力不斷提升,原來的訓練題目會逐漸變得"太簡單"或"太難",就像那500道題被做熟之後的窘境。這背後有一個深層的數學規律:在強化學習訓練中,真正能推動模型進步的,是那些介於"會"和"不會"之間的題目——也就是模型有時答對、有時答錯的題目。對於這類題目,訓練算法能從成功與失敗的對比中提取到最豐富的學習信號。一旦題庫里的題目全都變成"全對"或"全錯",訓練信號就會像枯竭的水井,再怎麼努力也提不上來水。
研究團隊將這個現象稱為"能力邊界的漂移"——隨著模型越來越強,那條介於會與不會之間的邊界線會不斷向更難的方向移動,而靜態的訓練數據集沒有辦法跟上這條移動的邊界線。
研究團隊為這個困境提出了一套名為RODS(Reward-driven Online Data Synthesis,獎勵驅動的在線數據合成)的解決方案,核心思路簡單而精妙:讓訓練系統在學習的同時,實時出新題,而且出的新題始終精準瞄準當前模型的能力邊界,既不太難也不太簡單。
**二、"最佳學習區"的數學原理**
在深入了解RODS的工作方式之前,有必要理解一個關鍵的數學洞察,因為整個方案都建立在這個洞察之上。
訓練AI使用的是一種叫做"強化學習"的方法,具體採用的算法叫GRPO。每次訓練時,模型會對同一道題生成16個不同的答案,然後根據這16個答案的得分情況來調整自己的參數,學習"什麼樣的做法得分更高"。關鍵在於:如果16個答案全都對(說明這題太簡單了),模型就沒什麼可學的——因為它已經知道怎麼做了;如果16個答案全都錯(說明這題太難了),模型也沒什麼可學的——因為它完全摸不著頭腦,無法從失敗中提取有用資訊。真正有價值的,是那些有對有錯、答案參差不齊的題目——模型在這類題目上能清晰地看到"什麼做法導致成功,什麼做法導致失敗",從而提取最豐富的改進信號。
這背後有一個數學定理的支撐:Popoviciu不等式告訴我們,一個取值在0到1之間的變量,其方差的上限是μ×(1-μ)——這個函數在μ=0.5時取到最大值。換成大白話就是:當一道題的成功率恰好在50%左右,模型的學習信號最強。研究團隊通過實驗驗證了這個數學直覺:在實際訓練中收集了4800個任務樣本的統計數據,發現處於"邊界區域"(成功率在25%到75%之間)的任務,其獎勵方差比"太簡單"或"太難"的任務高出2到2.2倍,這直接意味著每道邊界題能產生的學習價值比其他題目高出一倍以上。
這個洞察的美妙之處在於,發現這些"最佳學習區"的任務完全不需要額外的計算代價——因為訓練過程本身就需要對每道題跑16次推理來計算優勢值,這些數據天然就包含了判斷一道題是否處於能力邊界所需的全部資訊。RODS只是把這些本來就存在的信號重新利用了起來,充當"題目難度探測器"。
**三、RODS的三個核心模組——偵察、仿製、管理**
整個RODS系統可以用一個貼切的比喻來理解:一個能夠自我更新的智能題庫管理系統。這個系統有三個緊密協作的部門:第一個部門負責實時偵察當前模型的能力邊界;第二個部門負責根據邊界題目快速仿製出結構相似但內容全新的練習題;第三個部門負責維護一個動態更新的"活躍題庫",確保題庫里的題目時刻處於最有價值的狀態。
**偵察部門:實時定位能力邊界**
在每一步訓練過程中,系統都在悄悄給題庫里的每道題打一個"價值分數"——具體來說,就是計算這道題在最近幾次訓練中的平均進度獎勵值。研究團隊把訓練數據按這個分數分成三個區域:平均分超過0.85的題目被歸為"已掌握區",這些題太簡單,模型已經能穩定做對,繼續練毫無意義;平均分低於0.20的題目被歸為"暫時觸不到區",這些題對當前模型來說過於超前,強行練習只是浪費資源;平均分介於兩者之間的題目就是黃金地帶——"能力邊界區",這裡的題目才是出新題的原材料。
在選取邊界題目時,系統還做了一個細心的設計:按照題目類型進行配額管理,確保每次選出的新種子題在不同題型上有均衡覆蓋,防止系統對某一類題型產生偏好而忽視其他類型。在每種題型內部,再按照成功率最接近50%的原則排序優先選取。另外,系統還設置了一個"時間隔離窗口":同一道題在被選為種子題之後的若干訓練步內不會被重複選中,避免反覆基於同一道題生成變體題而導致多樣性不足。
**仿製部門:五步流水線造新題**
找到了邊界種子題之後,仿製工作才是真正的技術難點。如果只是簡單地換幾個數字或名字,生成的新題會缺乏多輪對話之間的邏輯連貫性——就像把一部完整電影的幾個場景隨機拼湊在一起,雖然畫面是真實的,但故事毫無意義。研究團隊將這個問題定義為"語義脫節",並專門設計了一套五階段多智能體流水線來解決它。
這套流水線的核心思路是"骨架不變,血肉全新"——保留原題的API調用拓撲結構(比如需要先調用工具A獲得數據,再把這個數據作為參數傳給工具B,這樣的依賴關係鏈條保持不變),但在這個骨架上重新生成全新的故事背景、參數值和自然語言描述。
第一階段由一個"規劃智能體"負責,它讀入種子題,從可用的API函數庫中為新題規劃出一個結構相近的函數調用序列,同時創作一個統一的敘事背景(比如"用戶張明想要查詢股票後進行交易"),並將歷史失敗經驗記錄下來,避免在新題中重蹈覆轍。
第二階段由"執行編排智能體"負責,它把規劃好的函數序列放到一個模擬的執行環境中真實運行,生成包含完整地面真實值的原始軌跡。如果執行過程中遇到錯誤,系統會觸發一個雙路修復機制:一方面,"配置修補智能體"會分析環境狀態中的問題(比如賬戶餘額不足、市場狀態關閉等),生成修補指令;另一方面,規劃智能體會收到失敗函數的黑名單,重新規劃一條避開障礙的路徑。這個修復循環最多嘗試三次。
第三階段是整個流水線中最關鍵的"全局語義渲染"步驟,由"重寫智能體"負責。這個智能體的特別之處在於,它不是逐輪獨立生成用戶提問,而是一次性看到全部輪次的函數調用,然後以第一階段創作的敘事背景為主線,同時生成所有輪次的自然語言提問。這種"上帝視角"的生成方式確保了整個對話中存在自然的前後引用和邏輯銜接——就像一個作者先構思好整個故事再逐段寫作,而不是每次只看著眼前一段往下寫。
第四階段是嚴格的質量把關,由"評判智能體"按照五項標準逐一檢驗:每輪用戶提問是否與該輪的函數調用意圖嚴格對應;參數值是否與環境配置一致;跨輪次是否有合理的狀態演進;提問是否像真實用戶的自然語言而非技術文檔;特殊場景(如缺少某個工具、參數不明確需要追問)的結構是否正確體現。如果某條數據被拒絕,系統會進一步診斷問題出在用戶提問的措辭上還是地面真實答案本身有誤——前者可以通過重寫修復,後者則直接丟棄這條數據。
第五階段是可選的"對抗增強"步驟,專門為缺少某類工具或參數不完整的題型注入結構性的例外情況,強迫模型學會在工具不可用或資訊不足時恰當地拒絕執行或請求澄清,而不是矇混作答。
**管理部門:活躍題庫的動態生命周期**
新題生成出來了,如何管理這個持續擴充的題庫同樣大有講究。研究團隊設計了一套雙重控制機制。
在擴充側,新生成的題目不會立即投入訓練,而是先放在候選隊列里,在每個訓練輪次結束時才批量注入活躍題庫。每次注入的量被嚴格限制在當前活躍題庫大小的20%以內,避免一次性湧入太多新數據打亂訓練的節奏,造成模型不穩定。
在淘汰側,系統設置了三道"退休"機制。第一道是入門篩查:剛注入的新題會先經過一輪測試,如果初始得分低於門檻值,說明這道題對當前模型來說還是太難,直接淘汰。第二道是邊界漂移驅逐:隨著訓練進行,某些題目可能從邊界區漂移到了"已掌握區"或"暫時觸不到區",這些題目也會被及時清出題庫。第三道是容量上限控制:當題庫超過最大容量時,按照每道題的獎勵方差從低到高的順序淘汰,保留最具學習價值的題目。此外,長期沒有被抽取到參與訓練的題目也會被標記為"過時數據"並清除,防止無效數據積壓。
系統還有一條硬性保護規則:最初的400道人類標註的種子題永遠不會被淘汰出去,它們是整個系統的錨點,確保生成的新題不會漂離真實數據的分布。
**四、用400道題的效果打敗17000道題的數據集**
實驗結果是整篇論文中最令人印象深刻的部分。研究團隊在BFCL V3這個業界公認的多輪工具調用基準測試上進行了系統性評估,測試包含四類任務:基礎多輪調用、缺少某個工具時的應對、參數資訊不完整時的追問、以及長對話中的上下文維持。
研究團隊將RODS與兩條基準線進行了公平對比:三種方法都使用相同的400道種子訓練題、相同的GRPO訓練配置和相同的進度獎勵函數,唯一的區別在於面對梯度信號枯竭時的應對策略。第一種是靜態數據集訓練(Static Dataset),完全依賴固定的400道題;第二種是EnvTuning,這是一種環境增強方法,不新增數據,但在模型答錯時提供更豐富的反饋提示,幫助模型從同樣的題目中榨取更多信號;第三種就是RODS。
以Qwen3-4B-Instruct模型為例,靜態數據集訓練的綜合得分為50.00%,EnvTuning提升到50.50%,而RODS達到了56.00%——比靜態訓練高出整整6個百分點,比環境增強方法高出5.5個百分點。這個差距在四類子任務上均有體現,說明RODS的提升是全面的而非只對某種特定題型有效。
更值得關注的是與大規模離線數據集的對比。研究團隊將RODS與FunReason-MT-4B進行了橫向比較,後者是用17000道離線合成數據訓練出來的同等規模模型,代表了當前大規模數據合成方案的最高水準。RODS用400道種子題加上訓練過程中動態生成的最多400道補充題(活躍題庫最多約800道),取得了56.00%的綜合得分,而FunReason-MT-4B的得分是56.50%。換句話說,RODS用大約1/20的數據量,達到了幾乎相同的訓練效果。在"缺少功能"和"缺少參數"這兩個子類上,RODS甚至反超了FunReason-MT-4B。
在泛化能力測試上,研究團隊還在三個完全不同的測試集上評估了模型:BFCL V4(包含網路搜索和記憶管理兩類全新任務)、τ?-bench(零售、航空、電信等真實業務場景)、以及ACEBench智能體測試集。基於RODS訓練的模型在所有這些測試集上都穩定優於同等數據量下的對比方法,這表明通過結構化同構合成出來的數據確實能讓模型學到可遷移的推理能力,而不只是記住了訓練數據的表面特徵。
為了驗證邊界瞄準本身的價值,而不只是"多一些數據"的價值,研究團隊設計了一個關鍵消融實驗:將"從邊界區選種子題"替換為"從整個題庫隨機選種子題"。結果顯示,隨機選種子的版本綜合得分下降了4.75個百分點,說明邊界定位而非數據數量是RODS有效的根本原因。
研究團隊還系統地研究了數據量與效果的關係,將活躍題庫的最大容量從0(即純靜態)逐步擴大到50、100、200、400。結果顯示,即使只增加50道邊界合成題(相當於僅擴充12%的數據量),模型效果也有明顯提升;隨著容量增加,效果持續改善,但到200以後開始出現明顯的邊際遞減效應,說明400道原始種子題所覆蓋的邊界空間大約在200道變體之後就基本被覆蓋完了。
**五、系統內部發生了什麼——數據空間的動態演化**
為了讓讀者理解RODS為什麼有效,研究團隊還展示了訓練過程中數據空間的實時變化情況,這些數據圖像直觀地展現了系統的內部運作邏輯。
隨著訓練步數從0推進到800步,活躍題庫中的任務數量經歷了一個有趣的動態變化:原始的400道靜態題目構成基礎底盤,隨著模型能力提升,其中越來越多的題目被掌握並"退休";與此同時,系統持續生成新的邊界題目注入進來,累計生成了超過800道獨特的任務。全程活躍題庫的大小被控制在400道左右的上限範圍內,既保證了訓練數據的新鮮度,又避免了題庫無限膨脹帶來的管理困難。
剛被注入的新合成題目的平均得分分布表明,它們穩定地落在0.25到0.75的邊界區間內,說明仿製流水線確實成功地將新題的難度控制在了對當前模型最有價值的區間。這不是偶然發生的,而是結構化同構設計的直接結果——通過保留種子題的API調用拓撲結構,新題自然繼承了與種子題相近的難度等級。
**六、換一個合成大腦,效果幾乎不變**
RODS的合成流水線需要一個外部大語言模型來驅動各個智能體(規劃、執行、重寫、評判等)。默認配置使用的是Qwen3-32B。一個合理的疑問是:RODS的效果是否嚴重依賴這個特定模型的質量?
研究團隊用GLM-4.5-Air替換了Qwen3-32B作為合成大腦,其他所有設置保持不變,重新跑了一遍完整的訓練流程。結果顯示,綜合得分從56.00%下降到55.25%,差距僅為0.75個百分點。這個結果很有說服力:兩個模型能力有差異,但RODS框架的骨架設計——邊界檢測、結構同構、動態題庫管理——對合成引擎的質量波動有很強的魯棒性。這意味著RODS不是一個嚴格依賴某個特定大模型能力的方案,而是一個框架性的方法,可以插入不同的生成引擎使用。
有趣的是,兩個合成引擎在子任務上呈現出互補的特點:Qwen3-32B在基礎類和缺少功能類任務上表現更好,而GLM-4.5-Air在缺少參數和長上下文類任務上略勝一籌。這個觀察提示了一個潛在的優化方向:用多個不同合成引擎的組合來覆蓋更廣的結構多樣性。
**七、消融實驗揭示的關鍵依賴**
除了前面提到的邊界選種實驗,研究團隊還系統地拆解了系統的其他關鍵組件,通過逐一"拔掉"某個模組來量化其貢獻。
去掉全局語義重寫(即各輪提問獨立生成,沒有統一敘事背景)之後,綜合得分下降了5.13個百分點,這是所有消融實驗中下降幅度最大的。更直觀的指標是質量評判通過率:有重寫時約63%的生成數據通過質量檢驗進入訓練,去掉重寫後這個比率驟降至12%,意味著大量生成的數據因語義脫節而被淘汰,系統可用數據量急劇萎縮。
去掉敘事規劃(規劃智能體不再創作統一故事背景)之後,得分下降3.63個百分點,說明故事背景在引導跨輪次連貫性方面發揮了重要作用,即使不做最終的重寫也能提供部分保護。
去掉反饋修復循環(執行失敗時直接隨機重試而不積累修覆信號)之後,得分下降2.13個百分點,這個下降相對溫和,但也說明有反饋的定向重試比盲目重試更高效。
在題庫管理側,禁用三層退休機制之後,得分下降3.38個百分點,說明允許已掌握的題目持續留在題庫中會稀釋有效梯度信號,模型的學習資源被浪費在已經不能帶來進步的題目上。將動態刷新改為"只在Stage 3開始時生成一批固定題目之後不再更新",得分下降2.88個百分點,進一步證明持續跟蹤能力邊界而非一次性生成補充數據是RODS有效性的關鍵要素之一。
**八、從連續進度獎勵到二值獎勵**
研究團隊還有一個與眾不同的設計選擇值得特別提及:用"進度獎勵"而非簡單的"對/錯"來衡量每道題的質量。進度獎勵是一個0到1之間的連續數值,由每輪對話中環境狀態執行正確率與工具調用成功率的乘積平均得到,能細粒度地反映模型在每道題上的部分完成程度。
用二值對錯替換連續進度獎勵作為邊界檢測信號時,綜合得分下降了3.25個百分點。這個差距直觀地說明了進度獎勵的價值:對於複雜的多輪任務,一個模型可能能正確完成3輪中的2輪,用二值獎勵會把這種部分正確計為"錯誤",而進度獎勵能精確記錄這種中間狀態,從而更準確地定位能力邊界,篩選出更有價值的種子題。
**九、這套方法的局限與未來方向**
研究團隊在論文中坦誠地指出了RODS當前的主要局限:整套系統依賴一個可以確定性執行並驗證結果的模擬環境(用Python對象實現),這樣才能保證合成出的數據是正確的。對於那些狀態不透明的遠程工具(比如通過網路調用的MCP
伺服器),當前的驗證框架無法直接適用——因為你無法訪問和控制這些外部服務的內部狀態來驗證執行結果。
研究團隊表示,下一步將探索如何把模擬抽象層擴展到能夠安全包裝和交互有狀態MCP端點的形式,讓合成引擎能夠在不直接訪問底層內部狀態的情況下捕獲輸入-觀測動態。此外,多合成引擎集成的方向(用不同大模型分別合成不同類型的任務,然後集成到統一題庫)也被列為值得探索的延伸方向。
說到底,RODS解決的是一個在AI訓練領域普遍存在但之前缺乏系統化解決方案的問題:如何在訓練過程中實時保持數據的"恰到好處"。這個方案的聰明之處在於它的零額外代價——所有用於判斷題目價值的資訊,都是訓練過程本身必須計算的中間結果,RODS只是把這些資訊重新利用了起來,不需要額外的標註人員、不需要額外的推理調用、也不需要手動設計課程安排。
歸根結底,這項研究告訴我們一件事:在AI訓練中,"在正確的地方投入資源"遠比"投入更多資源"更重要。用精準瞄準邊界的800道題,可以比用17000道隨機分布的題取得相近甚至更好的效果——這對於那些數據稀缺、標註成本高昂的實際應用場景,是一個很有價值的方向性啟示。對於任何想深入了解這套方法細節的讀者,可以通過arXiv編號2606.19047查閱完整論文。
Q&A
Q1:RODS的"能力邊界"是怎麼判斷的?
A:RODS利用強化學習訓練本身已經計算好的獎勵數據來判斷邊界。每道題在訓練中會被跑16次推理,系統取這16次的平均進度獎勵值:如果平均分在0.20到0.85之間,就認為這道題處於模型當前的能力邊界——既不太簡單(模型每次都對)也不太難(模型每次都錯)。這種判斷方式完全免費,不需要額外的計算開銷。
Q2:RODS合成的題目如何保證多輪對話的邏輯連貫性?
A:RODS通過兩個機制保證連貫性。首先,規劃階段會創作一個統一的敘事背景,比如"某用戶想完成某項具體任務",讓所有輪次的對話圍繞同一個故事展開。其次,重寫階段一次性看到全部輪次的函數調用,再統一生成所有輪次的用戶提問,而不是逐輪獨立生成,這樣能確保前後有自然的引用關係和邏輯演進。
Q3:RODS相比直接生成大規模數據集,成本上有什麼差異?
A:RODS的合成計算成本大約等於訓練本身的成本——訓練用了8塊A100 GPU跑約56小時,合成也用了同等規模的GPU同步運行。總成本約為896 GPU小時。相比之下,像FunReason-MT這類方案需要預先離線生成17000條數據,其合成成本在訓練開始前就已大量投入,而且這17000條數據中很多在訓練後期對模型來說已經沒有學習價值。RODS的核心優勢不在於絕對成本更低,而在於每一條數據的學習價值更高,最終用更少的有效數據量達到相近的訓練效果。






