中國人民大學、上海交通大學與上海人工智慧實驗室聯手：讓AI自己決定「今天吃什麼數據」，訓練效率提升66%

這項由中國人民大學、上海交通大學、上海人工智慧實驗室、中國電子科技集團公司第十五研究所以及LiblibAI聯合開展的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），地點在韓國首爾，論文編號為arXiv:2505.23878。有興趣深入了解的讀者可以通過該編號查閱完整論文。

贊助商廣告

**大模型的"偏食"問題**

每個孩子都經歷過偏食的階段——喜歡吃糖果，不愛吃蔬菜。然而家長和營養師都知道，均衡飲食才能讓孩子真正健康成長。訓練大型語言模型（就是ChatGPT這類AI），其實面臨著一模一樣的困境。

網際網路上的文字數據浩如煙海，有百科全書、新聞報道、編程代碼、學術論文、小說故事、法律文件……訓練AI時，究竟該餵多少新聞、多少代碼、多少小說，這個比例的調配，就像給孩子安排一日三餐的營養配比，直接決定了AI最終能學到什麼、能做什麼。

傳統做法是在訓練開始之前，由研究人員根據經驗或簡單計算，提前確定好各類數據的比例，然後整個訓練過程就按這個固定菜單進食，直到結束。這就好比在孩子出生的那一天，家長就給接下來十八年的每一頓飯全部排好菜單，完全不考慮孩子不同成長階段的營養需求變化。不難想像，這種"一刀切"的做法會留下不少遺憾。

而這項研究提出的方法，叫做**AC-ODM（Actor-Critic Online Data Mixing，演員-評論家在線數據混合）**，核心思路就是讓AI在訓練過程中，根據自己當前的"消化吸收狀況"，實時動態調整接下來吃哪類數據、吃多少。更妙的是，這套系統還能從一個"小AI"身上學到經驗，然後把經驗遷移給真正要訓練的"大AI"，既省錢又高效。

**一、從"固定菜單"到"智能點餐"：數據混合問題的前世今生**

在AI訓練領域，數據混合策略一直是個核心難題。早期的研究，包括DoReMi、DoGE、RegMix、CHAMELEON等方法，都屬於"靜態策略"陣營。它們的共同特點是：在訓練開始之前，通過各種方式（比如訓練一個小的代理模型來估算各類數據的重要性，或者用數學公式計算不同數據之間的關聯度）確定好一個固定的數據配比，然後整個訓練過程就照此執行，不再改變。

贊助商廣告

這類方法有其合理性——畢竟提前做好規劃總比毫無章法強。但問題在於，AI在訓練過程中的狀態是不斷變化的。訓練初期，AI對所有知識都很陌生，什麼都需要；訓練中期，它已經掌握了一些基礎，某些類型的數據可能變得更有價值；訓練後期，它可能在某些方向上已經"吃飽"了，繼續餵同類數據收益遞減。固定菜單無法捕捉這種動態變化，就像給正在長個子的青少年還按照嬰幼兒的配方調配營養，顯然不合時宜。

於是，研究者開始探索"動態策略"。ODM（Online Data Mixing）採用了類似"多臂老虎機"的方式——把不同類型的數據當成不同的老虎機，根據每次"拉杆"（餵數據）的反饋，動態調整下次選哪個。PiKE則關注不同數據類型的梯度衝突問題（梯度可以理解為AI在學習時大腦中產生的"思維方向"），當兩類數據讓AI產生相反的"思維方向"時，就降低衝突嚴重的那類數據的比例。

這些動態方法比靜態方法效果更好，但仍有明顯不足：要麼計算開銷太大，要麼靈活性不夠，難以同時適應"從零開始訓練"和"使用預先準備好的數據集"這兩種截然不同的應用場景。AC-ODM正是為了同時解決這些問題而誕生的。

**二、強化學習登場：讓一個"智能經紀人"來決定今天吃什麼**

AC-ODM的核心思路來自強化學習——這是AI領域中一種讓機器通過不斷嘗試和獲取反饋來學會做決策的方法，AlphaGo打敗圍棋世界冠軍就用到了類似原理。

在AC-ODM的框架里，整個大模型訓練過程被設計成一個"環境"，就像一個遊戲世界。在這個世界裡，有一個專門的"智能經紀人"（也叫策略代理），它的任務只有一個：根據當前大模型的狀態，決定接下來從哪些類型的數據中各取多少來組成這一批訓練數據。

這個"智能經紀人"由兩部分組成，就像一家公司里的兩種角色。"演員"（Actor）負責做出實際決策，具體說就是輸出各類數據的採樣權重——"這一批訓練數據，百科文章占30%，代碼占25%，新聞占15%……"。"評論家"（Critic）則負責評估演員做出的決策到底有多好，就像公司里的審計部門，給演員的每個決策評分，讓演員知道哪些決策值得堅持、哪些需要改進。兩者相互配合，共同疊代進步，這正是"演員-評論家"框架名稱的由來。

贊助商廣告

經紀人在做決策時，需要了解大模型當前的"身體狀況"，也就是訓練狀態。AC-ODM設計了一套資訊採集方案：收集當前訓練到第幾步了、每類數據分別見過多少次、每類數據當前的損失值是多少（損失值可以理解為AI在這類數據上還有多少"不懂的地方"）、損失值相比上一步變化了多少、大模型里某些關鍵層的權重大小以及這些權重的變化幅度。這六類資訊組合在一起，就構成了經紀人觀察大模型狀態的"傳感器"。

在大模型吃下一批數據之後，它的"大腦"（也就是模型參數）就會根據數據進行調整。AC-ODM會在此時計算一個"獎勵信號"，告訴經紀人這次的數據配比選得好不好。這個獎勵信號的設計極為精妙，也是整個研究最核心的創新之處。

**三、"梯度對齊"：好的數據配比究竟好在哪裡**

要理解AC-ODM的獎勵機制，可以用一個"團隊協作"的比喻來理解。

AI在學習每一類數據時，都會產生一個"學習方向"（在數學上叫做梯度向量）。這個方向指示著模型參數應該往哪裡調整才能在這類數據上表現更好。把所有類型數據的學習方向加權合併，就得到了最終的參數更新方向。

現在關鍵問題來了：如果百科文章的學習方向指向東北，代碼的學習方向指向西南，新聞的學習方向指向正東，這三個方向疊加在一起，很可能互相抵消，最終走出來的合力方向既不遠又不確定。但如果百科文章、代碼和新聞的學習方向都大致朝著同一個方向，合力就會非常強大，每一步的學習效果都會事半功倍。

AC-ODM的獎勵信號衡量的正是這種"方向一致性"。對於每一類數據，它會計算這類數據的學習方向與所有其他類數據學習方向之和的點積（可以理解為兩個向量"志同道合"的程度）。如果一類數據的學習方向與其他數據的整體方向高度一致，說明這類數據正在"助攻"其他數據的學習，獎勵就高；反之，如果一類數據的學習方向與其他數據相悖，說明它在"拖後腿"，獎勵就低。

贊助商廣告

經紀人的目標就是最大化這種"團隊協作度"，通過調整各類數據的權重，讓每次訓練時的合力儘可能強大。研究團隊從數學上嚴格證明了：這種獎勵機制實際上是在最大化參數更新幅度的平方（用論文中的術語說，就是最大化Gram矩陣譜的交叉項能量），相當於在每一步都讓AI走儘可能大的有效學習步伐。

為了防止獎勵信號劇烈波動導致經紀人不穩定，研究團隊還為獎勵值設計了一個"指數移動平均"的平滑機制，同時用每類數據已被採樣的頻率來做重要性修正，避免經紀人陷入"只不停地選最常見類型數據"的懶惰陷阱。

**四、兩種工作模式：適配不同訓練場景**

AC-ODM針對現實中兩種截然不同的訓練場景，設計了兩種工作模式，就像一款多功能工具箱，既有精密儀器也有萬能扳手。

第一種叫做"非代理模式"，也稱端到端模式。在這種模式下，經紀人和大模型從零開始同步訓練。大模型每吃一批數據，經紀人也同步更新自己的決策策略。這種模式不需要任何預先準備，適合從頭開始訓練、數據集隨時可能新增或變化的場景。它的計算開銷極小，幾乎不比普通訓練多花時間。

第二種叫做"代理模式"，也稱策略遷移模式。這種模式的思路更加巧妙：先用一個參數量小得多的"代理模型"（比如一個4億參數的小模型）來訓練經紀人，讓經紀人在小模型上充分探索和學習，掌握數據配比的規律；然後把訓練好的經紀人的策略"凍結"（不再更新），直接移植到真正要訓練的大模型上使用。大模型從第一步開始就能享受到成熟經紀人的"專業建議"，完全跳過了經紀人自我探索的笨拙早期階段。

這種設計的經濟賬非常划算：在小模型上訓練經紀人的成本遠遠低於在大模型上"試錯"的代價。以實驗中的配置為例，用4億參數的小模型訓練好經紀人之後，10億參數的目標大模型只需要原本所需訓練步數的28.82%，就能達到對比基準方法的最終效果。即便把小模型的訓練成本算進去，整體效率提升依然非常顯著。

贊助商廣告

**五、實驗結果：數字背後的故事**

研究團隊在兩個主流數據集上進行了大量實驗，一個是"The Pile"（825GB，包含22種不同來源的文字，從YouTube字幕到學術論文、GitHub代碼庫），另一個是"SlimPajama"（6720億詞，包含7個領域）。目標模型主要是10億參數規模的Pythia架構，同時還在LLaMA風格的模型上做了驗證。

在驗證集困惑度（衡量模型對文字的"理解難度"，數值越低越好）方面，代理模式的AC-ODM表現最為突出。在The Pile數據集上，AC-ODM-410M（用4億參數代理模型訓練的策略）實現了比對比基準方法ODM快66%的收斂速度——換句話說，ODM需要跑完全程才能達到的最好成績，AC-ODM在跑完三分之一時就已經超過了。與靜態方法CHAMELEON相比，AC-ODM驗證困惑度低了20.7%；與另一個動態方法PiKE相比，AC-ODM也有明顯優勢。在SlimPajama數據集上，AC-ODM-410M同樣展現出類似的規律，比均勻分配策略快73%達到對比基準的最佳困惑度。

在22個具體文字域的測試困惑度表現上，AC-ODM-410M在22個域中的17個取得了最低困惑度，全面優於PiKE和CHAMELEON。尤其值得關注的是，AC-ODM在小規模和中規模的專業域（比如DM數學）上的提升最為顯著，但在大規模通用域（比如Pile-CC網頁文本）上也保持了競爭力，說明它既不偏科也不放棄主科。

在面向真實世界任務的下游評測方面，AC-ODM-410M的優勢更為突出。在MMLU（一個覆蓋STEM、社會科學、人文和其他領域的綜合知識測試）的零樣本（不給任何提示直接回答）評測中，AC-ODM-410M得分0.29980，而對比方法ODM只有0.23514，提升幅度達27.5%。五樣本（給五道例題再回答）評測中，AC-ODM-410M得分0.35215，ODM只有0.28416，提升幅度23.9%。在HumanEval（編程能力測試，看模型能否寫出正確的代碼）的pass@1指標上，AC-ODM-410M得分0.72644，ODM只有0.32510，提升幅度高達2.23倍。

這裡有個很有意思的細節：AC-ODM在代碼生成上取得的巨大進步，並不是簡單地"把GitHub代碼數據的權重調高了"換來的。通過查看訓練過程中各個域的權重變化軌跡，研究團隊發現，AC-ODM實際上調高了StackExchange（技術問答社區）和若干高質量通用域的權重，而GitHub代碼庫本身的權重反而有所下降。這說明AC-ODM的提升來自於更好的全局優化和可遷移的推理能力，而不是走捷徑專門堆碼量。

贊助商廣告

在計算效率方面，非代理模式的AC-ODM每步平均耗時2.48秒，對比ODM的2.47秒，額外開銷不足0.4%，內存占用只增加約2%，可以說幾乎可以忽略不計。而PiKE每步耗時2.53秒，額外開銷約2.4%，是AC-ODM的六倍。從端到端的角度看，非代理AC-ODM比ODM減少了31.95%的訓練步數，實現了1.46倍的整體加速，優於PiKE的1.30倍加速。

研究團隊還在LLaMA風格的0.9B模型上驗證了AC-ODM的通用性。結果顯示，AC-ODM在這種與Pythia完全不同的架構上同樣有效，代理模式比原始數據權重方案快65%達到目標困惑度，比非代理AC-ODM快53%。相對提升幅度比在Pythia上略小，原因是LLaMA風格的模型本身設計更先進，留給數據混合策略發揮的"餘地"更少，但效果的方向始終一致。

**六、數據域的"個性分析"：哪類數據在漲價，哪類在跌價**

研究團隊詳細分析了訓練過程中各個數據域權重的動態變化，呈現了一幅頗為直觀的圖景。

整體規律是：在訓練前約1.5萬步，域權重經歷了劇烈的動態調整；之後逐漸趨於穩定，但始終保持輕微的波動，對大模型的狀態變化保持響應。相比之下，ODM算法在完成約五分之一訓練後權重就幾乎不再變化，缺乏後期的靈活性。

從具體域的走勢來看，那些文字質量高、知識覆蓋廣的通用性域，無論初始比例大小，權重都趨於上升。比如HackerNews（技術社區討論）、Gutenberg PG-19（公版圖書）、BookCorpus2（書籍語料）、StackExchange（技術問答）和USPTO Backgrounds（專利說明書背景部分）都獲得了持續的權重提升。與此相反，那些噪音較多或高度專業化的域則經歷了明顯的權重下降，比如Enron Emails（商務郵件）、DM Mathematics（數學題集）、Wikipedia（英文維基百科）、Github（代碼庫）和FreeLaw（法律判決文書）、PubMed Central（醫學論文）都在這一列。

這與人類的學習直覺非常吻合：在構建通用語言能力的早期階段，高質量的敘事性和討論性文本最有助於建立廣泛的語言基礎，而高度格式化或極度專業的文本（數學公式、代碼、法律文書、醫學論文）在這個階段的"營養價值"相對有限。

贊助商廣告

**七、細節實驗：每個設計選擇都有其道理**

研究團隊通過一系列消融實驗（逐一去掉某個設計要素，觀察效果變化）驗證了AC-ODM各個組成部分的必要性。

狀態資訊的六個組成部分中，去掉任何一個都會導致性能下降。其中，去掉"每個域當前的損失值"和"去掉所選層的權重L2範數"帶來的損失最大，困惑度分別上升了6.38%和6.48%。這說明大模型當前在各個域上的"不會程度"以及大模型整體的"體量狀態"，是經紀人做出準確決策最不可或缺的資訊。相比之下，去掉"樣本計數"和"訓練步數"的影響較小，但仍然不可忽視。

計算獎勵信號時，用哪些層的梯度來代表整個模型，也經過了仔細篩選。實驗結果顯示，使用第12、14、16層的前饋網路塊（一共包含約5033萬個參數）效果最好，優於使用14、15、16層（相鄰晚期層）、6、8、10層（中間層）或1、2、3層（早期層）。整體差異不算特別大，說明AC-ODM對具體層的選擇有一定魯棒性，但晚期和中期層的表徵質量總體上更適合作為獎勵估計的代理。

代理模型的大小對最終效果也有顯著影響。用7000萬參數的小模型訓練的策略效果最差，說明代理模型太小就沒有足夠的"見識"來學會有效的數據配比經驗。用1.6億參數的代理模型效果已經很接近4.1億參數的代理模型，尤其在訓練早期。4.1億參數的代理模型在全程保持略微更好的表現。研究團隊預計，對於比10億參數更大的目標模型，代理模型大小帶來的差異會更加明顯，留待未來研究進一步探索。

關於策略模型（經紀人的演員和評論家網路）自身的大小，實驗表明，策略模型達到目標大模型參數量的0.25%-0.5%時效果最好，繼續增大並不帶來額外提升，而太小（低於0.15%）則會明顯欠擬合。這意味著AC-ODM在實踐中只需要一個微小的附加模型，就能實現顯著的效率提升。

**八、域粒度的影響：越細分越有效**

贊助商廣告

研究團隊還專門研究了數據域的劃分粒度對AC-ODM效果的影響。他們把The Pile的22個域合併為11個和5個，在相同條件下訓練，觀察困惑度變化。

結果非常明確：域劃分越粗糙，效果越差，而且這種下降在訓練早期和中期尤為明顯。22個域時，訓練到20,832步時困惑度為13.43；11個域時為13.85；5個域時為14.09。這個規律還解釋了為什麼AC-ODM在The Pile上（22個域）的提升明顯大於在SlimPajama上（7個域）的提升。

背後的原因很直觀：當兩個本來代表不同知識來源的域被合併到同一個"桶"里時，它們內部的正向梯度關係和負向梯度關係就會在桶內相互抵消，導致獎勵信號變得模糊，經紀人無法準確識別哪類數據真正在"助攻"當前學習。就像把廚房裡所有的調味料都混在一個瓶子裡，廚師就無法精準調味了。因此，AC-ODM在實踐中最好配合保留了足夠區分度的域分類體系使用。

**九、規模擴展：向更大模型進發**

研究團隊還初步驗證了AC-ODM在更大規模模型上的有效性。用10億參數的Pythia作為代理模型，訓練好策略後遷移給120億參數的Pythia-12B目標模型，結果顯示AC-ODM在整個訓練過程中持續優於ODM，而且優勢幅度相當大——在20,832步時，ODM的困惑度是7.32，而AC-ODM已經降到了4.24。這提示更強的代理可以學到對更大目標模型同樣適用的策略，代理模式的價值會隨著目標模型規模的擴大而愈發凸顯。

在更大的LLaMA風格模型（30億和70億參數）上，非代理AC-ODM同樣展現出隨模型規模增大而困惑度持續下降的良好趨勢，分別在20,832步時達到10.59和8.79，表明AC-ODM的有效性不依賴於某個特定的參數量級。

**說到底，這項研究告訴我們什麼**

歸根結底，AC-ODM解決的是一個聽起來樸素但實則深刻的工程問題：在用海量數據訓練AI時，數據的"吃法"和"菜單"本身，比單純增加數據量或計算量更值得投入精力。通過把這個"配餐"決策交給一個專門學習此道的強化學習代理，並給代理一個有堅實數學基礎的獎勵信號——鼓勵各類數據的學習方向互相"順風"而不是"頂風"——AI的訓練效率和最終能力都得到了顯著提升。

贊助商廣告

對於普通人來說，這項研究的意義在於：未來我們使用的各種AI產品，有可能在同樣的時間和電力消耗下，擁有更強的知識廣度和推理能力。而對於從事AI開發的團隊，這套方法提供了一個計算成本幾乎可以忽略不計的優化手段，能夠在不增加硬體投入的前提下，將訓練效率提升一到兩倍。

當然，AC-ODM也有自身的局限。它的前提是數據能夠被有意義地劃分成若干域，如果數據集本身高度混雜、無法清晰分域，獎勵信號的質量就會受影響。代理模式依賴於策略在不同規模模型之間的可遷移性，目前的驗證主要集中在同一架構家族內，跨架構遷移還有待更多研究。此外，AC-ODM優化的是現有數據的混合比例，而不是數據本身的質量，它應當與數據清洗和篩選工作配合使用，而非替代後者。

感興趣的讀者如果想深入了解這項工作的數學推導、完整實驗設置和更多消融分析，可以通過編號arXiv:2505.23878查閱完整論文。

---

Q&A

Q1：AC-ODM和普通的靜態數據混合方法有什麼本質區別？

A：靜態數據混合方法在訓練開始前就確定好各類數據的固定比例，整個訓練過程不再改變。AC-ODM則是實時監測大模型的訓練狀態，通過一個強化學習代理在每一步動態調整各類數據的採樣比例，讓數據配比跟上模型的成長節奏。關鍵在於AC-ODM的獎勵信號——它衡量的是不同數據類型的學習方向是否互相"助攻"，從而每步都能最大化有效學習步幅，這是靜態方法根本做不到的。

Q2：AC-ODM的代理模式為什麼能用小模型訓練的策略來指導大模型？

A：核心依據是不同規模模型在面對同一批數據時，各類數據之間的梯度關係（學習方向的相互關聯）具有跨規模的相似性。小模型和大模型雖然參數量差異巨大，但面對"百科知識與代碼哪個更互補"這類問題時，得出的規律是相近的。實驗結果支持了這一假設：用4億參數小模型訓練的策略遷移到10億參數大模型後，效果顯著優於大模型自己從零摸索。

贊助商廣告

Q3：AC-ODM額外增加的計算開銷有多大，普通實驗室能用嗎？

A：非常小。在10億參數模型的訓練中，AC-ODM每步僅增加約0.4%的時間開銷（2.48秒對比ODM的2.47秒），內存只多占約2%。經紀人網路的參數量僅為目標大模型的約0.25%到0.5%，是一個只有1700萬參數的小型全連接網路。獎勵計算只用到大模型中三個特定層的參數，約5000萬個，而不是全部10億參數。因此，任何能訓練10億參數大模型的計算環境，都能直接運行AC-ODM，無需額外硬體投入。