這項由新加坡國立大學LV-NUS實驗室聯合復旦大學、北京大學與字節跳動公司共同開展的研究,於2026年6月發布於arXiv預印本平台,論文編號為arXiv:2606.17628v1。研究的核心成果是一個名為OPD-Evolver的智能體訓練框架,它讓一個參數量僅90億的小模型在多項測試中追平甚至超越了參數量高達3970億的超大模型。
假設你剛入職一家新公司,第一天什麼都不懂,第二天開始慢慢摸索,第三天開始記筆記,第四天拿出筆記本翻翻哪條記錄對今天的工作有用,第五天把沒用的記錄劃掉,把有價值的記錄整理得更清晰……幾個月後,你已經成為部門裡解決問題最快的人。這個"靠經驗成長"的過程,正是這篇論文想賦予AI的能力。
然而,當前的大多數AI系統在這個過程中只做到了"記筆記"這一步——它們能儲存經歷,但不知道哪條記錄真正有用,不知道怎麼從記錄里學到真正的工作技巧,也不知道什麼時候該把過時的筆記扔掉。OPD-Evolver要做的,是讓AI把這整套"靠經驗進步"的流程都學會。
一、當AI有了記憶,問題才剛剛開始
現代AI智能體已經普遍配備了某種形式的"記憶系統"。這些系統讓AI可以把之前完成任務的經歷、犯過的錯誤、學到的技巧儲存起來,供未來使用。聽起來非常合理——畢竟人類就是靠積累經驗來提升能力的。
但研究團隊發現,"有記憶"和"會用記憶進步"之間,隔著一道巨大的鴻溝。
以一個管理倉庫的人為例。倉庫里堆滿了各種操作手冊、工作日誌、經驗總結,但如果這個人每次處理問題時隨手抓一本書翻翻,不管這本書是否跟當前問題有關;完成任務後把所有細節不加篩選地全記下來;隨著時間推移,倉庫里的東西越堆越多,舊的、錯的、重複的都混在裡面——那麼這個倉庫非但沒有幫助這個人,反而成了負擔。
當前的AI記憶系統,大多就處於這種狀態。它們能儲存經歷,但往往缺乏四種關鍵能力:一是判斷哪些儲存的經驗真正值得在當前任務中使用;二是把選出的經驗真正轉化為有效的行動;三是從新的經歷中提煉出值得長期保存的知識;四是定期整理記憶倉庫,淘汰過時或錯誤的內容,合併重複的條目。
這四種能力,研究團隊將其稱為"經驗選擇、經驗驅動執行、經驗寫入、經驗管理",並把同時具備這四種能力的AI稱為"合格的智能體進化者"(agent evolver)。這個名字的意思是,這個AI不僅能完成任務,還能系統地通過經驗讓自己持續變得更好。
二、一個倉庫管理員的四重修煉
為了讓讀者真正理解這四種能力的含義,可以用一個更具體的比喻來理解。
把AI的記憶系統比作一個老員工的工作筆記本。每天開始工作前,這個員工需要翻翻筆記本,找出今天任務最相關的那幾頁(經驗選擇)。然後,他用這些筆記里的方法和教訓來指導今天的具體操作(經驗驅動執行)。任務結束後,他把今天學到的新東西記下來,但不是把所有細節都寫進去,而是提煉出最有價值的心得(經驗寫入)。每隔一段時間,他還會整理整個筆記本,把重複的內容合併,把已經過時的方法劃掉,把錯誤的經驗標記警告(經驗管理)。
研究團隊指出,這四種能力不能分開訓練,因為它們彼此緊密依賴。如果"經驗選擇"能力差,AI每次翻到的都是無關內容,執行時就會受到干擾;如果"經驗寫入"質量低,記錄下來的都是泛泛而談的廢話,後續選擇時根本找不到有價值的內容;如果"經驗管理"缺失,隨著時間推移,筆記本里的內容越來越臃腫混亂,最終反而拖累性能。
三、筆記本不只有一個本子:四層記憶結構
OPD-Evolver的記憶系統並不是一個簡單的大雜燴,而是按照用途精心劃分成四個層次,就像一個細心的員工會準備幾種不同類型的筆記本一樣。
最底層是"軌跡記憶"(trajectory memory),相當於工作日記——完整記錄了某次任務從開始到結束的詳細過程,包括每一步做了什麼、看到了什麼、得到了什麼反饋。這類記憶內容豐富、細節真實,但也相當冗長,就像把一天的工作錄像存下來,以備將來參考。
第二層是"提示記憶"(tip memory),相當於便利貼——記錄的是一些簡短的警告或經驗法則,比如"作業系統任務里千萬別忘了給目錄設置權限"、"SQL查詢前先核實列名"。這類記憶簡短、具體,直接對應某類容易犯的錯誤。
第三層是"技能記憶"(skill memory),相當於操作手冊——記錄的是可以跨任務復用的通用操作流程,比如"如何系統地探索一個陌生資料庫的結構",或者"如何在迷宮環境中進行高效路徑規劃"。這類記憶抽象程度更高,單次提煉成本也更大,但復用價值極高。
最頂層是"工具記憶"(tool memory),相當於代碼片段庫——儲存的是可以直接執行的命令模板或代碼結構,需要時直接調用即可。
這四層記憶各有側重:工作日記內容詳盡但難以直接復用,操作手冊高度可復用但提煉成本高,便利貼簡潔直接,代碼庫可以直接運行。AI在每次任務前,會從四個層次分別檢索相關內容,然後綜合判斷哪些值得注入到當前任務的提示上下文中。
四、快慢兩個循環:AI是如何"邊干邊學"的
OPD-Evolver的整體運作機制分為兩個相互配合的循環,研究團隊用"快循環"和"慢循環"來描述它們。
快循環負責實時運行。每當AI面對一個新任務,它首先從記憶倉庫里檢索相關內容,每個層次最多取50條候選記憶。但這50條候選內容里難免有些是無關的、過時的或者互相矛盾的,所以AI需要進一步從中篩選出真正有用的那些,注入到當前任務的背景資訊里。接著,AI帶著這些選定的經驗去執行任務,在與環境的多輪交互中完成工作。任務結束後,AI根據結果和過程,向四個記憶層次分別補充新的記錄——有些任務產生新的技能,有些產生新的便利貼,有些什麼都不值得記。每隔30個任務,AI還會主動進入一次"倉庫整理"模式,通過查找、合併、刪除等操作清理記憶倉庫,防止它變得臃腫混亂。
快循環解決的是"怎麼用經驗做好當前任務"的問題,但它本身並不訓練AI的能力——就像一個員工每天參照筆記工作,但如果沒有人系統地告訴他哪些筆記寫得好、哪些判斷正確,他的筆記質量和判斷水平不會自動提升。
這就是慢循環的任務。慢循環負責從AI的歷史交互中提煉訓練信號,教會AI把那四種經驗管理能力真正內化進自己的"本能"里。
五、如何知道一條經驗究竟值多少錢?
慢循環面臨一個核心難題:怎麼知道某條儲存的記憶究竟有沒有價值?
任務的結果反饋是最直接的信號,但問題在於,一次任務成功與否受到很多因素的共同影響——使用的經驗、執行的策略、任務本身的難度,都摻雜在裡面。如果只是籠統地說"這次任務成功了,所以用到的所有記憶都是好的",這個邏輯顯然過於粗糙。
研究團隊設計了一套"結果校準歸因"(outcome-calibrated attribution)方法,本質上是一種受控對照實驗的思路。對於記憶倉庫里的某條記憶,研究者會收集兩類任務數據:一類是這條記憶被檢索到但沒有被選入提示上下文的任務(相當於對照組),另一類是這條記憶被選入提示上下文的任務(相當於實驗組)。然後比較兩組的平均成功率——如果"用了這條記憶"的任務成功率更高,說明這條記憶確實有正面價值;如果成功率差不多或者更低,說明這條記憶幫助有限甚至可能有干擾。
此外,這個評分還會考慮"使用次數"因素。一條只被使用過一兩次的記憶,它的評分參考價值較低——畢竟樣本太少;被大量使用過的記憶,其評分就更可靠。這個置信度調整讓整套歸因系統更加穩健。
最終,每條記憶都獲得了一個數值化的"價值分",高分意味著這條記憶真正幫助過AI,低分意味著它是噪音甚至是有害的。
六、有了價值分,老師才能真正教出好學生
有了每條記憶的價值評分,慢循環就可以構建訓練信號了。研究團隊採用的方法叫"在線策略自我蒸餾"(on-policy self-distillation)——這個名字聽起來很複雜,但本質上可以理解為一種特殊的"觀摩更聰明的自己"訓練方式。
在這個框架里,同一個AI模型扮演兩個角色:一個是"學生",只能看到正常情況下能看到的資訊;另一個是"教師",除了看到學生能看到的內容,還額外看到了用價值分標註過的"內幕資訊"——比如每條候選記憶的價值分、歷史上哪些任務的執行路徑最成功、新產生的記憶在未來表現如何。
針對四種能力,系統分別構建了四種訓練場景。在經驗選擇的訓練中,教師版本看到了每條候選記憶的價值分,它會做出更合理的篩選決策;學生版本的篩選行為被教師版本糾正,逐步學會分辨好記憶和壞記憶。在經驗驅動執行的訓練中,教師版本看到了哪些記憶是高價值的以及同類任務中最成功的執行軌跡;通過模仿這些成功案例,學生學會了在沒有外部輔助的情況下也能直接做出正確行動。在經驗寫入的訓練中,教師版本知道哪些新產生的記憶後來真正有用,因此能示範如何寫出高質量的記憶;學生通過模仿,學會了把失敗經歷提煉成真正有價值的教訓,而不是泛泛的廢話。在經驗管理的訓練中,教師版本看到了整個記憶倉庫的健康診斷報告——哪些條目重複率高,哪些條目使用頻率低但質量好——從而示範正確的合併、刪除決策;學生學會了主動維護記憶倉庫的質量。
整個訓練過程中,教師版本的參數是凍結的(即它不會因訓練而改變),梯度只通過學生版本的行為進行反向傳播。訓練結束後,只有學生版本被部署使用,它不再需要任何"內幕資訊",就能憑藉訓練中內化的判斷力獨立完成選擇、執行、寫入和管理。
七、拿數據說話:一個小模型挑戰參數量超它40倍的巨頭
研究團隊在四個不同類型的測試平台上評估了OPD-Evolver,涵蓋資料庫操作、作業系統任務、數學物理問答、代碼交互以及網格迷宮導航等場景,力求全面檢驗這套框架的通用性。
在與七種同類記憶系統的對比中,OPD-Evolver在全部10個子測試中均排名第一,不論是4B版本還是9B版本。以最具代表性的幾個數據為例:在作業系統任務上,OPD-Evolver-9B的成功率為65%,而表現最好的對比系統MemEvolve只有61%;在代碼安全挑戰(CTF)測試上,OPD-Evolver-9B達到57%,比最近的競爭者高出4個百分點;在狀態抽象推理任務上,OPD-Evolver-9B以52.92%超過了MemEvolve的48%。
更令人注目的是與超大規模模型的對比。研究團隊將OPD-Evolver-9B與兩個業界頂級的商業大模型進行了比較:參數量高達3970億(其中170億處於激活狀態)的QWEN3.5-397B-A17B,以及參數量約1960億的STEP-3.5-FLASH。在全部10個子測試中,OPD-Evolver-9B在6個測試上超過了前者,在9個測試上超過了後者。換句話說,一個參數量只有約90億的小模型,通過學會"管理和使用經驗",在多項任務上挑戰了參數量超過它40倍的對手。
在與基於訓練的方法的對比中,OPD-Evolver在6個測試中贏得了5個。與純強化學習方法GRPO相比,OPD-Evolver在最困難的網格迷宮子任務(需要找到鑰匙才能開門的KeyRoom關卡)上的成功率從3.92%提升到了9.80%,翻了將近一倍半。
八、拆解實驗:去掉哪個零件損失最大?
為了驗證各個組成部分的必要性,研究團隊進行了系統的消融實驗——用通俗的話說,就是逐一"拆零件",看看去掉哪個部分會造成多大損失。
實驗結果顯示,去掉"結果校準歸因"(即不再精確測量每條記憶的價值)是損失最大的改動,平均成功率從約38.67%下降到約32.13%,其中CTF任務下降了7.31個百分點,SQL任務下降了7.36個百分點。這說明,精準地知道哪條經驗有價值,是整套系統最核心的基礎。
去掉"慢循環蒸餾"(即AI不再通過訓練將這些能力內化)是第二大損失,平均下降約33.10%。這證明了僅僅在運行時依賴記憶提示是不夠的,必須把經驗管理能力真正訓練進模型本身。
去掉"經驗寫入蒸餾"(即不再訓練AI寫出高質量記憶的能力)導致CTF成功率從34%降到29%;去掉"學習型記憶選擇"(改為純粹按相似度排名取前5條)導致SQL成功率從45.86%降到42.04%;去掉"記憶管理訓練"也帶來了明顯的性能下降。這四組數據共同說明,每一種經驗管理能力都不是可有可無的裝飾,而是整套系統不可或缺的組成部分。
九、從數字到直覺:記憶質量究竟變化了多少?
研究團隊還從更直觀的角度展示了OPD-Evolver帶來的變化——不只是最終成功率,而是記憶本身的質量。
在經驗選擇方面,通過比較訓練前後AI所選記憶的平均價值分,可以看到明顯的提升。以SQL任務為例,原始模型所選記憶的中位價值分約為0.66,OPD-Evolver訓練後提升到0.79;在CTF和Bash任務上,分別從0.69、0.66提升到0.76、0.76。更重要的是,低價值記憶(分布的下四分位)從約0.50提升到了0.62以上——這說明AI不只是偶爾選出更好的記憶,而是從整體上減少了"把沒用的東西注入進去"的概率。
在經驗寫入方面,變化更為顯著。原始模型寫出的記憶中位價值分約為0.80到0.82,訓練後提升到0.89到0.91,且分布更集中——意味著AI不再產生那麼多泛泛而談的廢話,而是更穩定地產出真正有價值的經驗記錄。
此外,研究團隊還測試了一個特別有意思的問題:如果把外部記憶倉庫完全去掉,只讓訓練後的OPD-Evolver用內化的能力執行任務,結果會如何?結果顯示,即使沒有任何外部記憶輔助,OPD-Evolver的成功率也比原始模型高出3到7個百分點,且完成同樣任務所需的步驟數減少了最多2.5步。這說明慢循環訓練真的把高價值經驗"燒錄"進了模型的參數裡,而不只是讓模型學會了如何翻筆記本。
十、案例解析:同樣的任務,不同的判斷
研究論文提供了幾個具體案例,非常直觀地展示了OPD-Evolver和普通模型之間的差異。
在一個作業系統任務中,要求AI在某個目錄下創建多個文件,設置特定權限,並按修改時間排序生成文件列表。記憶倉庫里有5條候選記憶,包括兩個技能、一個提示、兩個工具。普通模型選擇了一個目錄權限設置技能和一個配置文件工具——這兩條都跟當前任務沾點邊,但都不是最直接相關的。OPD-Evolver則選擇了與批量文件權限修改直接相關的技能和驗證文件列表的提示,完全跳過了那個不相關的工具。這種判斷上的差異,正是"經驗選擇"能力的體現。
在一個網格迷宮任務中,AI失敗了——它在一系列移動後提前提交,但實際上還沒有站到目標格子上。普通模型從這次失敗中寫出的教訓是"避免無效操作、記得驗證目標、預覽每步移動"——這些建議都正確,但都過於籠統,根本沒有指向真正的失敗原因。OPD-Evolver則直接寫出了核心教訓:"僅僅探索相鄰格子是不夠的"——這條記憶精準指向了AI在那次任務中犯的具體錯誤,未來遇到類似情況時能直接起到警示作用。
還有一個SQL查詢失敗案例。普通模型從失敗中產生了大量記憶:3個新技能、4個通用SQL注意事項、2個新工具——內容豐富,但絕大多數都是寬泛的操作建議,沒有指向真正的失敗原因(錯誤地假設了列名,DESCRIBE語法出錯)。OPD-Evolver只寫出了2條提示:在WHERE子句前驗證列名,以及DESCRIBE返回數據行而不是表結構說明語法有誤。沒有技能,沒有工具,只有兩條直擊要害的教訓。
歸根結底,OPD-Evolver解決的是一個非常本質的問題:AI系統積累了大量經驗,但不知道該怎麼從中真正學習。大多數現有的AI記憶系統,就像一個認真記筆記但從不整理、也沒人告訴他哪些筆記有價值的學生——筆記本越來越厚,但能力沒有系統性的提升。
這篇論文給出的解決方案,是讓AI學會扮演自己的"教練"。通過測量每條經驗在歷史任務中實際帶來的價值變化,再用這種精確的價值信號來訓練AI的判斷力,最終把"知道什麼經驗值得保留和使用"這種元能力內化到模型本身。訓練完成後,AI不需要任何額外的外部輔助,就能在新任務中自然表現出更精準的記憶選擇、更有效的執行方式、更高質量的經驗記錄,以及更及時的倉庫維護。
一個90億參數的小模型能夠挑戰3970億參數的超大模型,本質上說明的是:在特定類型的任務中,"怎麼用經驗"比"有多少參數"更重要。這對AI系統的未來發展方向提供了一個值得思考的視角——更大的模型固然有其優勢,但讓模型真正學會"經驗性成長",或許是一條更可持續也更高效的路徑。
有興趣深入了解這項研究的讀者,可以通過arXiv:2606.17628查閱完整論文。
Q&A
Q1:OPD-Evolver是如何判斷哪條記憶有價值的?
A:OPD-Evolver使用了一種叫"結果校準歸因"的方法。簡單說,就是對記憶倉庫里的每一條記憶,收集兩種歷史數據:這條記憶被使用過的任務,和這條記憶被檢索到但沒被使用的任務,然後比較兩組任務的平均成功率。如果"用了這條記憶"的任務成功率更高,這條記憶就被評為高價值;反之則低價值。使用次數越多的記憶,評分的置信度也越高。
Q2:OPD-Evolver的慢循環訓練具體是怎麼進行的?
A:慢循環訓練讓同一個AI模型扮演"學生"和"教師"兩個角色。學生只能看到正常資訊,教師則額外看到每條記憶的價值分、歷史成功軌跡等內幕資訊。訓練時,教師在同樣的任務場景下示範更好的決策,學生逐步模仿,最終把判斷力內化進自己的參數裡。訓練完成後只部署學生版本,它不再需要任何內幕資訊就能獨立做出高質量的經驗管理決策。
Q3:OPD-Evolver的四層記憶結構分別存什麼?
A:四層記憶各有側重。軌跡記憶儲存完整的任務執行過程,細節豐富但較冗長;提示記憶儲存簡短的經驗法則和警告,類似便利貼;技能記憶儲存可跨任務復用的通用操作流程,類似操作手冊;工具記憶儲存可直接執行的命令模板或代碼片段。AI在每次任務前會從四個層次分別檢索候選內容,再篩選出最相關的注入當前任務。






