這項研究來自Meta旗下的基礎人工智慧研究團隊(FAIR at Meta)以及紐約大學柯朗研究所,於2026年4月9日以預印本形式發布,編號為arXiv:2604.08706v1。感興趣的讀者可以通過這個編號在arXiv平台上查閱完整論文。
**一、一個反直覺的問題:舊菜熱一熱,味道更好?**
在飯店的廚房裡,有一條鐵律:新鮮出爐的菜餚才是最好的,絕不能把隔夜的菜端給客人。這條"鐵律"在人工智慧訓練領域同樣盛行了很多年——研究者們普遍相信,訓練AI必須使用"新鮮"數據,用過就扔,絕不重複使用。然而,Meta的研究團隊偏偏要打破這個"常識"。他們用大量實驗證明,在特定條件下,"把舊菜熱一熱"不僅不會讓味道變差,反而能節省高達40%的能源消耗,同時保持甚至略微提升最終的菜餚品質。
這項研究聚焦於一個非常實際的問題:訓練大型語言模型(也就是像ChatGPT這類能理解和生成語言的AI)的過程中,有一個步驟叫做"強化學習",它讓AI通過不斷嘗試、犯錯、修正來學習。這個過程中,AI需要持續產生大量的"練習素材"(專業術語叫"軌跡"或"rollout",可以理解為AI嘗試回答問題時生成的一整段文字),然後用這些素材來調整自己的"思路"。問題在於,產生這些練習素材的代價極其高昂——在最頂尖的AI訓練流水線中,光是生成這些素材就要消耗超過80%的計算資源,相當於整個訓練過程中八成的電費都花在了"出題考試"上,而非"分析錯誤、吸取教訓"。更要命的是,當前主流做法是每次考試結束後就把試卷直接扔掉,下次考試重新出題。這種"用完即棄"的方式,研究團隊將其稱為"生成即丟棄"模式。
Meta研究團隊提出的解決方案,正是本文標題中那個聽起來簡單卻蘊含深意的技巧——經驗回放(Experience Replay)。簡單說就是:把做過的練習題保存在一個"題庫"(專業上稱為"重放緩衝區",replay buffer)里,下次訓練時可以反覆從題庫中抽題來用,而不必每次都重新生成新題目。這個想法在遊戲AI領域早已是成熟技術,谷歌DeepMind著名的下棋AI就用到了類似思路,但在大語言模型的強化學習訓練中,這個方法卻被長期忽視。本次研究就是要系統地搞清楚:這個"題庫"到底應該怎麼設計?什麼情況下用有益?什麼情況下反而有害?
**二、題庫里的練習題:存多久才算"過期"?**
要理解這項研究的核心,需要先搞清楚一個關鍵矛盾。AI在強化學習過程中,其"思維方式"(也就是模型的參數)是在不斷進化的。用一周前還是新手水平時生成的練習素材,來訓練今天已經有所進步的AI,這些素材的參考價值必然會打折扣——就像用小學教材來輔導高中生做題,多少有些不合時宜。研究團隊把這種"練習素材與當前AI水平之間的代差"稱為"過期度"或"離策略程度"(off-policiness)。
這個"過期度"是整個研究的核心變量。過期度越高,意味著題庫里的練習素材是很久以前一個"還沒那麼聰明"的AI版本生成的,用這些素材訓練可能會引入錯誤的信號。但如果完全不用題庫,就意味著每次訓練都要重新生成新素材,代價極高。於是,一個三角形的權衡關係就浮現出來了:計算效率、數據新鮮度(低過期度),以及數據多樣性,三者之間存在此消彼長的關係。
題庫的大小(保存多少題目)和題庫的使用方式(同一道題被反覆做多少次)會同時影響這三個維度。題庫越大,存的題越多,題目的"過期度"平均就越高(因為最老的題可能是很久以前的AI生成的),但每次訓練時從更大的題庫里隨機抽題,不容易連續抽到同一道題,這在某種程度上增加了"局部多樣性"。反覆使用同一道題的次數(研究團隊稱之為"重放比率",replay ratio)越高,計算效率越高,但訓練內容越單調,AI的學習可能受到影響。
研究團隊還特別區分了兩種不同層次的"多樣性"。一種是"全局多樣性",指的是在整個訓練過程中,同一道題平均被使用了多少次。另一種是"局部多樣性",指的是同一道題在短時間內被連續反覆使用的程度——如果連續很多步訓練用的都是同一道題,AI就會陷入"死記硬背"的困境,學習效果極差。研究團隊認為,局部多樣性的損失比全局多樣性的損失危害更大。而增大題庫規模,恰好可以在不增加全局重複率的前提下,降低局部重複的概率——因為題庫越大,每次隨機抽題時,連續抽到同一道題的概率自然越低。
**三、一個精妙的數學框架:最優題庫規模的計算公式**
研究團隊不滿足於定性的直覺,他們建立了一套嚴格的數學理論來量化這個權衡關係。這套理論基於一個標準的數學框架——非凸隨機優化(可以理解為:在一個充滿山峰和山谷的複雜地形中,尋找最低點的數學方法)。
在這個框架中,研究團隊做了三個核心假設。第一個假設描述了"過期題目"對訓練信號的影響:一道題越舊,它給出的訓練信號偏差就越大,偏差的程度與當前AI和生成該題時AI的"差距"成正比。第二個假設描述了訓練信號的"噪聲":隨著題目越來越舊,訓練信號的波動性也會增加,因為用過時的AI生成的題目來糾正現在的AI,就好比用一把誤差越來越大的尺子來量身體,測量值會越來越不可靠。第三個假設描述了題目之間的"關聯性":從題庫中抽出來的不同題目,並不是完全獨立的——因為這些題目都曾經參與過之前的訓練,對當前AI的"思維方式"有過貢獻,所以它們之間存在一定的統計關聯,關聯強度與兩道題生成時間的間隔成正比,與題庫的大小成反比。
基於這三個假設,研究團隊推導出了一個核心定理,描述了在給定計算預算下,怎樣的題庫設計(題庫規模與每次新增題目量的比值,以及訓練批次大小與每次新增題目量的比值)能夠最優地平衡效率與準確性。這個最優設計具有直觀的物理意義:當生成練習素材的計算成本(用參數μ表示,可以理解為"出題成本"相對於"批改試捲成本"的倍數)越高時,最優方案就越傾向於使用更大的題庫、更高的重放比率;反之,當出題成本很低時,就沒必要建題庫,直接用新題更好。研究團隊還在冪律方差假設下給出了最優題庫深度和重放比率的閉合解析公式,讓這套理論具有實際的工程指導價值。
在實驗中,研究團隊測量了不同模型下的μ值:對於參數量為0.6億的小模型Qwen3-0.6B,μ約為6.84,意味著生成一批練習素材所需的計算量大約是訓練一步所需計算量的6.84倍;對於參數量更大的7億參數模型Qwen2.5-7B,μ約為5.28。這些數值都遠大於1,說明"出題"確實遠比"批改試卷"昂貴,使用題庫的理論依據相當充分。
**四、現實中的訓練流水線:推理工人與訓練工人的分工**
理論有了,還需要搞清楚在實際的AI訓練系統中如何落地。研究團隊的實驗基於一種叫做"異步訓練"的架構。在這種架構下,GPU(專門用於AI計算的圖形處理器)被分成兩組:一組叫"推理工人"(inference workers),專門負責生成練習素材;另一組叫"訓練工人"(trainers),專門負責根據練習素材調整AI的"思路"。兩組GPU各自獨立運作,不需要等對方完成才能繼續工作。
在沒有題庫的傳統做法中,推理工人生成的素材通過一個"傳送隊列"傳給訓練工人,訓練工人用完一批就丟棄,等下一批來。這裡有一個最優比例μ:如果出題成本是批改成本的μ倍,就需要配置μ個推理工人對應1個訓練工人,才能讓兩組工人都不閒置,整個系統效率最高。
引入題庫後,推理工人不再把素材傳給隊列,而是放進題庫;訓練工人隨時從題庫中自由抽取,不受推理工人速度的制約。這樣,即使推理工人只有一兩個,訓練工人也可以持續不斷地工作,因為題庫里有足夠的存貨。計算效率的提升,通過一個叫"計算比率γ"的指標來衡量:γ等於使用題庫配置下每次參數更新的計算成本,除以最優無題庫配置下的成本。對於Qwen2.5-7B(μ=5.28),當推理工人數量W=6、訓練工人數量T=2時,γ=0.65,即每次參數更新只需要原來65%的計算量;而當W=4、T=4時,γ低至0.32,即每次更新只需原來32%的計算量。
此外,題庫還帶來了一個額外的工程收益:在異步訓練中,推理工人有時會因為訓練工人處理不過來而"堵塞",訓練工人有時會因為素材不夠而"空轉",這種不均衡會導致整體效率下降。題庫通過解耦生產和消費,充當了一個"緩衝水庫",讓兩組工人都能保持滿負荷運轉,進一步提升了實際的牆上時鐘速度(wall-time speed),觀測到的實際加速效果甚至超過了理論計算的計算比率γ所預期的提升。
**五、實驗結果:題庫的大小和使用頻率如何影響AI的最終水平?**
研究團隊在Qwen3-0.6B和Qwen2.5-7B兩個模型上,使用OpenR1-Math-220k數學推理數據集進行了大量實驗,用MATH基準測試來評估模型的最終數學解題準確率。
對於小模型Qwen3-0.6B,研究團隊系統測試了從64到559,872不等的多種題庫規模,以及(W,T)=(6,2)、(5,3)、(4,4)三種不同的工人比例配置,累計運行了超過240個獨立實驗種子。他們發現了幾個規律性的現象。
首先,所有訓練曲線——無論是否使用題庫——都遵循一個先升後降的模式:準確率先慢慢爬升到一個頂峰,然後開始下滑。這是強化學習訓練語言模型時常見的現象,下滑的原因是模型在訓練集上過擬合,最終崩潰成胡亂輸出的狀態。觀察訓練集準確率的曲線可以看到,訓練集準確率比測試集更晚達到峰值,然後也跟著崩潰,印證了這一診斷。
其次,增大題庫規模有兩個顯著的效果:它會減慢訓練的速度(每個計算單位的進步變小),但同時會穩定訓練過程,讓模型能到達更高的準確率峰值,且崩潰來得更慢。研究團隊假設,重用來自"舊版AI"生成的素材,相當於在訓練目標上加了一個"正則化"效果,防止模型過度追求當前版本AI生成的素材中的特定模式。對于越大的模型,這種穩定化效果越不明顯,因為大模型本來就更難過擬合。
第三,題庫對於模型的"輸出多樣性"有正面影響。在AI安全和實用性領域,有一個叫做"pass@k"的指標,衡量的是:如果讓AI對同一道題嘗試k次,至少有一次答對的概率。pass@1就是一次就答對的概率,pass@32就是32次中至少答對一次的概率。研究發現,使用題庫不僅提升了pass@1(一次就答對),而且對pass@k中k越大的指標,提升效果越明顯。這意味著題庫幫助模型保留了更豐富的"解題思路多樣性",而不是讓模型在單一思路上越走越窄。這個發現具有重要的實際意義,因為研究界普遍擔憂強化學習訓練會壓縮模型的輸出多樣性,而題庫恰好在一定程度上對抗了這個趨勢。
研究團隊還做了一個特別精心設計的對照實驗,來確認這些收益不是因為題庫配置碰巧找到了一個更好的超參數設置。他們對兩個條件——使用題庫和不使用題庫——分別進行了覆蓋多個學習率的全面超參數搜索,對每個計算預算下各自取最優配置,繪製出兩條"效率前沿曲線"。結果顯示,在所有計算預算水平下,最優題庫配置的曲線始終高於最優無題庫配置的曲線,說明題庫的優勢不依賴於特定的超參數巧合。
對於更大的Qwen2.5-7B模型,在題庫規模84、訓練配置(W,T)=(6,2)(即每次參數更新只花原來65%的計算量)的設置下,使用題庫的模型不僅在所有計算預算水平下精度均高於不用題庫的基線,而且基線模型還多次出現不穩定崩潰的現象,而題庫版本的訓練則穩定得多。這一發現在Qwen3-8B(用於編程證明任務)和Llama 3.2 3B上也得到了驗證,說明題庫的好處具有跨模型、跨任務的普遍性。
**六、更精細的題庫設計:給"優質舊題"開小灶**
在驗證了基礎題庫方案的有效性後,研究團隊還探索了兩種更精細的設計,看能否進一步提升效果。
第一種改進叫做"正偏向採樣"(positive-bias sampling)。普通題庫的規則很簡單:保留最新的N道題,從中隨機抽取。但研究團隊注意到,正確解答題目的那些練習素材,可能比錯誤解答的素材有更持久的價值——正確答案的"有效期"更長,即使是一個老版本的AI生成的正確解答,對訓練現在的AI依然有參考價值。基於這個直覺,他們提出了一個混合題庫策略:題庫的一部分(比例為1-δ)仍然按時間順序保留最新的素材;另一部分(比例為δ)則專門保留最新的"正確解答"素材,並確保這些正確素材不與前一部分重複。訓練時從兩部分合併的題庫中統一隨機抽取。實驗結果表明,這種方式確實能夠提升訓練效果,δ取0.2或0.5時都有明顯改善。
第二種改進是更換訓練損失函數。標準的GRPO損失函數(可以理解為AI用來評判自己表現的"評分規則")包含一個重要性採樣修正項,其作用是補償由於"題目過期"導致的分布偏差。然而,重要性採樣在過期度較高時會產生很大的方差(測量值非常不穩定),而且這種修正僅能糾正"邊際分布"的偏差,無法處理題庫帶來的更深層的統計依賴關係(即來自同一批次的不同練習素材之間的相關性)。研究團隊改用了他們自己開發的AsymRE損失函數,這個函數不包含重要性採樣修正,從而迴避了高方差和無法修正深層依賴的問題。實驗顯示,AsymRE在題庫設置下的表現顯著優於GRPO,尤其在高過期度條件下優勢更為明顯。兩種改進——正偏向採樣和AsymRE——結合使用,效果尤為突出。
**七、說到底,這件事意味著什麼?**
歸根結底,這項研究做了一件聽起來簡單但影響深遠的事:把強化學習領域幾十年前就成熟的經驗回放技術,用嚴謹的理論分析和大規模實驗,移植到了大語言模型的後訓練流程中,並給出了清晰的設計指南。
這對普通人意味著什麼?當你在使用AI助手時,它能夠解答數學題、寫代碼、分析問題,背後的訓練過程就用到了強化學習。而強化學習的訓練成本,最終會轉化為AI公司的運營成本,繼而影響AI服務的價格和普及速度。如果訓練一個同等能力的AI只需要60%的計算資源,在保持相同訓練預算的前提下,可以訓練出能力更強的模型;或者在保持相同模型能力的前提下,可以大幅降低訓練成本。這兩個方向都對AI的未來發展具有實際意義。
當然,研究團隊也坦承了這項工作的局限性。目前的實驗規模限於0.6B到8B參數量的模型,在更大的前沿模型(如數百億甚至千億參數)上,這套方案是否同樣有效,還有待驗證。此外,即便在現有規模下,題庫規模和重放比率的最優設置,仍然依賴於一個模型特定的μ值,實際部署時需要針對具體的模型和硬體環境進行測量和調優。
有一個值得深思的問題是:如果連"反覆使用舊練習題"這樣聽起來有悖常識的做法,在數學上都能被證明是更優的策略,那麼在AI訓練領域,還有多少類似的"常識性偏見"正在悄悄地浪費我們的計算資源?這大概是這項研究留給整個領域最值得追問的問題。感興趣深入了解的讀者,可以通過arXiv編號2604.08706查閱這篇完整論文。
Q&A
Q1:經驗回放(experience replay)在大語言模型訓練中具體是怎麼工作的?
A:在大語言模型的強化學習訓練中,經驗回放的做法是:AI每次生成練習素材後,不直接用完就扔,而是把它們存入一個"題庫"(重放緩衝區)。訓練時,從題庫中隨機抽取素材來調整模型參數,同一份素材可以被多次使用。題庫採用先進先出策略,最舊的素材會被新素材替換。這樣一來,生成素材和使用素材這兩個步驟就解耦了,可以用更少的推理GPU來匹配更多的訓練GPU,從而大幅降低整體計算消耗。
Q2:使用題庫反覆訓練同樣的數據,會不會讓AI越練越差?
A:會有一定風險,但研究發現關鍵在於題庫規模的設置。如果題庫太小、同一道題被連續高頻重複使用(局部多樣性低),訓練效果確實會下降。但如果題庫足夠大,雖然同一道題全局上會被多次使用,但連續被抽到的概率很低,局部多樣性得以保持。適中規模的題庫反而能穩定訓練、防止模型崩潰,並保留輸出的多樣性,在大多數計算預算水平下優於不使用題庫的方案。
Q3:計算比率γ是怎麼算出來的,它說明了什麼問題?
A:計算比率γ等於"使用題庫時每次參數更新的計算成本"除以"不用題庫的最優配置下的計算成本",公式是γ=(1+W/T)/(1+μ),其中W是推理工人GPU數量,T是訓練工人GPU數量,μ是生成一批素材的成本相對於訓練一步成本的倍數。γ越小,說明題庫方案越省錢。對於Qwen2.5-7B(μ=5.28),當W=4、T=4時,γ=0.32,意味著每次參數更新只需原來32%的計算量,相當於節省了68%的計算開銷。






