上交聯手阿里團隊打造"AI記憶管家"ReMe，像人類一樣從經驗中學習

你有沒有注意到，人類學習新技能的方式其實挺有意思的？比如第一次學騎自行車，摔了幾次之後，你的身體就會"記住"該怎麼保持平衡。下次再騎，你不會再犯同樣的錯誤。這種從經驗中學習的能力，對人類來說稀鬆平常，但對人工智慧來說，卻一直是個巨大的挑戰。

贊助商廣告

2025年12月，上海交通大學與阿里巴巴通義實驗室聯手，開發了一套名為ReMe的框架，讓人工智慧真正學會了"吃一塹長一智"。這個名字來源於"Remember Me, Refine Me"（中文："記住我，優化我"），非常形象地描述了這套系統核心功能。

想像一下，如果你的私人助理每天幫你處理各種事務，但每次都像第一天上班一樣，完全忘記之前的教訓和經驗，那該有多讓人抓狂？不幸的是，目前大多數AI助手就是這樣工作的。它們可能會一次又一次地犯同樣的錯誤，因為它們沒有一套有效的"經驗管理系統"。ReMe的出現，正是為了改變這種狀況。

當AI助手變成"金魚"：為什麼現有的記憶系統不夠用

要理解ReMe的價值，我們需要先了解現有AI記憶系統的問題。

目前的AI記憶方案，研究者們形象地稱之為"被動堆積"模式。什麼意思呢？想像你有一個巨大的儲物間，每次完成一項工作後，你就把所有相關的文件、便簽、草稿統統扔進去。時間一長，儲物間裡堆滿了各種材料，但當你需要找某個特定資訊時，要麼找不到，要麼找出來的東西根本不適用於當前的情況。

現有的AI記憶系統大致分為兩類。第一類是"全文記錄派"，它們會把AI完成任務的整個過程原封不動地存下來。這就像把你學做一道菜的全過程錄成兩小時的影片存檔。當你下次想快速參考某個技巧時，你得從頭到尾看完整個影片，而其中大部分內容可能跟你現在的問題毫無關係。第二類是"總結流程派"，它們會把整個任務過程壓縮成一個概要性的工作流程。這有點像把那個兩小時的烹飪影片壓縮成一張菜譜卡片，資訊是精簡了，但可能丟失了很多關鍵的細節和技巧。

贊助商廣告

這兩種方法都有明顯的缺陷。前者資訊量太大、太粗糙，後者又太籠統、缺乏靈活性。更關鍵的是，它們都是"死"的，存進去是什麼樣，取出來還是什麼樣，不會根據新情況做調整，也不會隨著時間推移而優化。隨著時間的推移，這個經驗庫會逐漸變成一個混雜著有用建議和過時資訊的大雜燴，就像一本從不更新的老舊百科全書。

研究團隊指出，一套理想的AI記憶系統應該滿足三個關鍵標準。首先是"高質量提取"，系統需要從雜亂的執行過程中提煉出真正有價值、可復用的知識，而不是簡單地儲存原始數據。其次是"任務適配應用"，當AI面對新任務時，從記憶中調取的經驗應該能夠動態適應當前任務的具體需求，而不是生搬硬套。最後是"持續優化"，經驗庫需要保持活力，好的經驗要強化，過時的經驗要清理，這樣才能防止系統隨時間退化。

簡單來說，研究者們想要打造的，不是一個靜態的檔案櫃，而是一個會自我學習、自我優化的"活"的知識管理系統。

ReMe的核心秘密：像廚師一樣管理經驗

ReMe框架的工作方式，可以用一個餐廳廚師管理食譜的比喻來理解。想像一位經驗豐富的廚師，他不僅會記錄成功的菜品做法，還會分析失敗的嘗試，更會根據不同食客的口味調整烹飪方法，並且定期清理那些已經過時的老菜譜。ReMe就是這樣一套"廚房管理系統"。

整個框架由三個相互配合的階段組成，研究者們將其稱為經驗獲取、經驗復用和經驗優化。這三個階段形成了一個完整的循環，讓AI能夠持續地從過往任務中學習和成長。

首先來看經驗獲取階段。這一階段的核心任務是從AI執行任務的過程中提取有價值的知識。但ReMe的特別之處在於，它不是簡單地做筆記，而是採用了研究者所稱的"多維度蒸餾策略"。

什麼是多維度蒸餾呢？繼續用廚師的比喻。假設你今天做了一道紅燒肉，結果非常成功。普通的記錄方式可能就是把整個烹飪過程寫下來。但一位經驗豐富的廚師會做得更細緻。他會分析成功的關鍵，是火候的控制？是調料的比例？還是食材的處理方式？這種對成功要素的深入分析，就是ReMe中的"成功模式識別"。

贊助商廣告

同樣重要的是失敗的分析。如果那道紅燒肉做砸了，廚師不會簡單地說"這次失敗了"就完事。他會仔細思考：是哪一步出了問題？是最開始的焯水時間太短，還是後面收汁的時候火太大？這種對失敗原因的追溯，就是ReMe中的"失敗分析"功能。

更妙的是第三種分析方式，比較分析。當廚師同時做了兩道紅燒肉，一道成功一道失敗時，他會把兩個過程放在一起對比，找出導致不同結果的關鍵差異。也許兩道菜的唯一區別就是糖的添加時機不同，這個發現比單獨分析任何一道菜都更有價值。在ReMe中，這種通過對比成功和失敗案例來提取洞見的方法，正是讓經驗更加精準有效的秘密武器。

提取出這些經驗後，系統還會進行質量把關。就像出版社的編輯會審核稿件質量一樣，ReMe會用AI評估機制來判斷每條經驗是否準確、可行、有價值。那些模糊不清或者可能誤導的經驗會被篩除。此外，為了避免經驗庫變得臃腫，系統還會進行去重處理，把意思相近的經驗合併，保持庫的精簡高效。

每條通過驗證的經驗都會被組織成結構化的格式儲存，包含"什麼時候用"的使用場景描述、經驗的核心內容、相關關鍵詞、可信度評分以及涉及的工具列表。這種結構化的儲存方式為後續的精準檢索打下了基礎。

讓老經驗煥發新生：ReMe的智能復用機制

有了豐富的經驗庫只是第一步，如何在面對新任務時找到最合適的經驗並有效應用，才是真正的挑戰。這就像廚師面對一位新顧客的點單時，需要從自己積累的所有技巧中找出最適合的那些。

ReMe在經驗復用階段設計了一套完整的流程。當AI收到一個新任務時，首先要做的是在經驗庫中搜索相關的記錄。這裡有個講究的地方：用什麼作為搜索的"關鍵詞"？研究團隊測試了多種方案，包括直接用任務描述搜索、用從任務中提取的關鍵詞搜索、用概括化的任務表述搜索，以及用預先生成的"使用場景"描述搜索。

贊助商廣告

結果發現，用"使用場景"描述來建立索引的效果最好。為什麼呢？想像你在一個巨大的菜譜庫里找資料。如果你搜索"紅燒肉"，可能會漏掉一些相關但菜名不同的技巧，比如"如何讓肉類更入味"。但如果菜譜是按"使用場景"來組織的，比如"當顧客要求肉質軟爛且入味時"，你就能找到所有相關的技巧，不論它們原本是用在什麼菜品上。這種場景導向的索引方式能夠捕捉任務的本質需求，而不僅僅是表面的描述。

找到相關經驗後，系統還會進行二次篩選。這就像廚師先從書架上拿下幾本可能有用的菜譜，然後再仔細翻閱，挑出真正適用的那幾頁。ReMe使用了一個重排序模組，根據當前任務的具體情況對檢索到的經驗進行精細化評估，確保最終呈現給AI的是最相關、最有幫助的內容。

更精彩的是接下來的改寫步驟。假設你找到了一個關於"如何讓紅燒肉入味"的經驗，但你現在要做的是紅燒魚。這兩道菜有相似之處，但也有明顯的不同。一個聰明的廚師不會生搬硬套紅燒肉的方法，而是會根據魚的特點做出調整。ReMe的改寫模組正是完成這個工作。它會把從經驗庫中檢索到的多條原始經驗重新組織，轉化為針對當前任務量身定製的指導建議，讓歷史智慧真正服務於眼前的問題。

研究者在論文中給出了一個生動的例子。在一個模擬的股票交易場景中，用戶要求AI購買某隻股票，但只說了"按當前市價"，沒有給出具體價格。沒有經驗指導的AI可能會憑空編造一個價格，導致錯誤。配備了ReMe的AI則會參考之前學到的經驗，當用戶要求按市價交易但沒給具體價格時，正確的做法是先調用獲取實時股價的工具，然後再用獲取到的真實價格下單。這個例子清楚地展示了經驗如何幫助AI避免重蹈覆轍。

與時俱進的記憶：自動清理過時經驗

到目前為止，我們介紹的系統已經相當強大了。但研究團隊並沒有止步於此。他們深刻認識到，一個靜態的經驗庫終究會過時。就像一本十年前出版的投資指南，即使當初寫得再好，放到今天很多建議可能已經不合適了。

贊助商廣告

ReMe的第三個核心組件是經驗優化機制，它確保經驗庫始終保持活力和時效性。這個機制包含兩個主要功能：智慧地添加新經驗和果斷地清理舊經驗。

關於添加新經驗，研究團隊對比了兩種策略。第一種是"來者不拒"，把AI執行的所有任務結果都轉化為經驗儲存起來，不管成功還是失敗。第二種是"擇優錄取"，只有成功完成的任務才會被提取經驗並存入庫中。

實驗結果顯示，"擇優錄取"的效果明顯更好。這聽起來可能有些反直覺，畢竟不是說失敗是成功之母嗎？研究者解釋了其中的道理。在構建初始經驗庫時，可以收集大量的任務嘗試，把成功和失敗的案例放在一起對比分析，從中提取出有價值的教訓。但在日常運行中，單獨一次失敗的嘗試往往沒有足夠的上下文來準確分析失敗原因。如果強行從中總結經驗，可能得出錯誤的結論，反而會污染經驗庫。相比之下，成功的任務執行總是能提供可靠、可操作的參考價值。

但研究團隊並沒有完全放棄從失敗中學習。他們設計了一個巧妙的"失敗感知反思"機制。當AI在執行新任務時失敗了，系統不會立即從這次失敗中總結經驗，而是會分析這次失敗，然後鼓勵AI嘗試一種不同的方法。如果新方法成功了，那麼導致成功的那些改進點就會被記錄下來；如果還是失敗，就簡單地放棄，不讓不可靠的資訊進入經驗庫。這種機制既保留了從失敗中學習的機會，又避免了低質量經驗的引入。為了防止AI在某些本質上無法完成的任務上無限循環，系統設置了最多三次反思嘗試的限制。

清理舊經驗的機制同樣精心設計。系統會持續追蹤每條經驗的"使用記錄"，它被調用了多少次，以及在被調用後是否真的幫助AI成功完成了任務。如果某條經驗被頻繁調用，但使用它的任務成功率卻很低，這說明這條經驗可能已經過時或者一開始就有問題。在達到一定的調用次數閾值後，如果經驗的有效率低於設定的標準，系統就會將其從庫中移除。

贊助商廣告

用生活中的例子來說，這就像你的通訊錄管理。如果你發現某個聯繫人你經常嘗試聯繫，但每次都聯繫不上或者聯繫上了也沒什麼幫助，最終你可能會把這個號碼從常用聯繫人中刪除。ReMe對經驗的管理遵循同樣的邏輯。

真刀真槍的檢驗：實驗結果說話

再好的理論也需要實驗來驗證。研究團隊在兩個業界認可的基準測試上對ReMe進行了全面評估，一個是BFCL-V3，專門測試AI的函數調用和工具使用能力；另一個是AppWorld，模擬了包含九款日常應用的真實世界場景，比如郵件、音樂播放器、支付軟體等。

作為對照組，研究者選擇了三種方案：完全不使用記憶系統的原始AI模型、LangChain公司開發的LangMem長期記憶模組，以及另一套名為A-Mem的智能記憶系統。所有方案都使用阿里巴巴的Qwen3系列模型作為基礎AI引擎，測試了8B、14B和32B三種不同規模的版本。

在所有測試場景中，配備ReMe的AI都取得了最高的任務成功率，而且這種優勢在不同模型規模和不同測試基準上都保持一致。具體來看，以Qwen3-8B這個較小規模的模型為例，使用ReMe動態版本後，平均任務成功率比沒有記憶系統的基礎版本提升了約7到9個百分點。這是一個相當顯著的進步。

更有趣的發現是所謂的"記憶換規模"現象。配備ReMe的8B小模型，表現竟然超過了沒有記憶系統的14B大模型。同樣，配備ReMe的14B模型也勝過了裸奔的32B模型。這意味著什麼？意味著一套好的經驗管理系統可以在很大程度上彌補模型本身規模的不足。對於實際應用來說，這是個巨大的好消息，你不一定需要用最大最貴的模型，只要配上聰明的記憶系統，小模型也能發揮出大能量。

研究團隊還進行了細緻的消融實驗，逐一檢驗框架中各個組件的貢獻。結果顯示，細粒度的關鍵點級別經驗提取明顯優於粗粒度的軌跡級別提取，驗證了精細化知識管理的價值。擇優錄取的新經驗添加策略優於來者不拒的策略，證明了經驗質量比數量更重要。失敗感知反思機制進一步提升了性能，說明在適當的框架下從失敗中學習確實有效。而基於使用效果的經驗清理機制也貢獻了可觀的性能增益，確認了保持經驗庫活力的必要性。

贊助商廣告

在檢索經驗數量的實驗中，研究者發現存在一個最優點。隨著檢索數量從零增加，性能穩步提升，但超過一定閾值後反而會下降。這很好理解，太多的參考資訊可能會干擾AI的決策，就像你在做一道菜時同時參考太多食譜反而會無所適從。最終，研究團隊選擇每次檢索五條經驗作為默認設置，在資訊豐富性和聚焦度之間取得了平衡。

錯誤分析：ReMe幫AI規避了哪些坑

為了更深入地理解ReMe的效果，研究者對8B模型在BFCL-V3基準上的錯誤案例進行了詳細分析。這種分析方法就像檢查一位學生的錯題本，看看哪些類型的錯誤減少了，哪些還需要改進。

結果顯示，沒有記憶系統時，8B模型總共在62個任務上失敗。配備ReMe後，這個數字下降到了47個。更有意思的是失敗案例的具體分布。研究者發現，ReMe成功糾正了17個原本失敗的案例，同時只新增了2個之前成功但現在失敗的案例。這說明ReMe整體上是在幫助AI變得更好，而不是簡單地做了個"零和交換"。

從錯誤類型來看，減少最明顯的是"推理錯誤"，從22個降到了14個。這表明歷史經驗有效地增強了AI的多步推理能力，幫助它避免在複雜任務中一步錯步步錯的連鎖失敗。"動作遺漏"類錯誤也有明顯減少，說明經驗幫助AI更好地識別多輪任務中可能被忽視的步驟，尤其是那些需要按順序調用工具或跟蹤狀態的環節。

這些分析結果從另一個角度印證了ReMe的價值，它不僅在整體數字上提升了性能，而且是以合理的方式做到的，針對AI真正薄弱的環節提供了有效的補強。

更強的"總結者"帶來更好的經驗

研究團隊還探索了一個有趣的問題：用於提取和總結經驗的AI模型，其能力高低會如何影響最終效果？在主要實驗中，負責總結經驗的模型和執行任務的模型是同一個，這意味著AI在進行"自我學習"。但如果用更強大的模型來做經驗總結呢？

實驗結果證實了一個直覺的猜想：更強的"總結者"確實能產生更好的經驗。當讓8B模型執行任務，但用14B甚至32B模型來總結經驗時，任務成功率會進一步提升。用32B模型做總結比用8B模型自己總結，帶來了額外3個多百分點的性能提升。

贊助商廣告

這個發現有重要的實際意義。它暗示了一種高效的部署策略：日常任務可以用較小、成本更低的模型來執行，但可以周期性地調用更強大的模型來分析執行日誌、提取經驗。這種分工既控制了成本，又保證了經驗庫的質量。

至頂AI實驗室洞見

ReMe代表了AI記憶系統的一次重要進化。它把AI的經驗庫從一個落滿灰塵的檔案室，變成了一個活躍的學習中心。通過精細化的經驗提取、智能化的經驗應用和動態化的經驗維護，ReMe讓AI真正具備了"吃一塹長一智"的能力。

未來的AI助手會變得越來越靠譜。它們不會再一次又一次地犯同樣的錯誤，而是會像一個勤奮好學的新員工一樣，快速積累經驗，變得越來越得心應手。更令人期待的是，ReMe展示的"記憶換規模"效果意味著，高質量的AI服務不一定需要昂貴的超大模型支撐，精心設計的經驗管理系統可以讓小而美的模型同樣表現出色。

研究團隊已經開源了他們的代碼和構建的經驗數據集。這項工作為AI的"終身學習"開闢了一條新路徑，讓我們看到了一個AI能夠持續成長、不斷進化的未來。未來，AI助手能像真人一樣，從每一次互動中學習，變得越來越懂你、越來越好用。

論文地址：https://arxiv.org/abs/2512.10696v1 上交聯手阿里團隊打造AI記憶管家ReMe像人類一樣從經驗中學習

項目地址：https://github.com/agentscope-ai/ReMe

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：ReMe和普通的AI記憶系統有什麼區別？

A：普通的AI記憶系統就像一個簡單的檔案櫃，把所有經歷原封不動地存起來。而ReMe更像一位善於總結的學習者，它會從成功和失敗中提煉關鍵經驗，根據新任務的需求靈活調整運用方式，還會定期清理那些已經過時或效果不好的舊經驗。

Q2：小模型配上ReMe真的能比大模型表現更好嗎？

A：是的，實驗數據顯示，配備ReMe的8B參數模型在任務成功率上超過了沒有記憶系統的14B模型。這意味著好的經驗管理可以在一定程度上彌補模型規模的差距，對於追求性價比的實際應用來說是個好消息。

贊助商廣告

Q3：ReMe如何避免學到錯誤的經驗？

A：ReMe採用多重保險機制。首先，它只從成功的任務中直接提取經驗；其次，所有經驗都要經過AI評估驗證其可行性和準確性；最後，系統會持續追蹤每條經驗的實際使用效果，把那些頻繁被調用卻效果不佳的經驗自動清理掉。