蒙特婁大學等機構聯合研發：AI助手終於學會了「按需記憶」，不再什麼都往腦子裡塞

這項由ServiceNow AI Research、蒙特婁大學、麥吉爾大學、蒙特婁理工學院以及加拿大人工智慧研究所CIFAR聯合開展的研究，以預印本形式發表於2026年5月，論文編號為arXiv:2605.21463。有興趣深入了解的讀者可以通過該編號查詢完整原文。

贊助商廣告

**一段關於"記性太好"的煩惱**

你有沒有遇到過這樣一種情況：朋友給你推薦了一家館子，說"那家紅燒肉特別好吃"，結果你到了那裡發現今天根本沒有紅燒肉，只有清蒸魚。朋友的建議並沒有錯，但她的記憶停留在上次她去的時候，而那個"記憶"放到你今天的情況里就完全不管用了。

人工智慧助手面臨的問題和這個類似。當我們讓AI幫我們完成一些複雜任務——比如在網上購物、操作企業軟體系統、或者完成家務類的虛擬任務——AI往往需要"記住"過去的經驗，才能在新任務中少走彎路。於是研究者們開始給AI配備"記憶庫"，把過去的經驗存起來，下次遇到類似情況時翻出來用。

但問題來了：這種翻出來的記憶往往是死板的。就像你朋友那句"紅燒肉特別好吃"的推薦，被原封不動地貼在你今天的菜單上——不管今天有沒有紅燒肉，推薦就是推薦。AI在面對和過去"相似但不完全相同"的新任務時，檢索出來的舊經驗會帶著過去的具體細節，把AI引向錯誤的方向，甚至越幫越忙。

這篇論文的研究團隊決定換一個思路。他們設計了一套叫做**Mem-π**（讀作"Mem-pi"）的新框架，把AI的記憶從"倉庫里翻檔案"變成"根據當前情況現場生成建議"。更關鍵的是，這套系統還學會了判斷：什麼時候應該給出建議，什麼時候應該保持沉默。

---

**一、從"查檔案"到"現場出主意"：記憶方式的根本轉變**

大多數現有的AI記憶系統工作方式有點像圖書館員。圖書館裡存了大量書籍（也就是過去的經驗），當你來問一個問題，圖書館員根據你的問題找出最相關的那本書遞給你。這種方式叫做"檢索式記憶"，技術上的名字叫RAG（檢索增強生成）。它的好處是可靠——書里寫什麼就是什麼，不會捏造。但缺點也很明顯：書里寫的是過去某個具體情境的經驗，而你現在的情境可能和當初稍有不同。

贊助商廣告

比如，記憶庫里有一條經驗是"找出店鋪排名前2的搜索詞"，但你今天的任務是"找出前3的搜索詞"。圖書館員直接遞給你那本寫著"找前2個"的書，AI就會照著做，最終給你錯誤的答案。原因很簡單：舊經驗的"2"被原封不動地搬到了新任務里。

Mem-π的做法完全不同。它不維護一個需要不斷翻閱的檔案庫，而是把大量過去的經驗"消化吸收"到一個專門的小模型里——這個小模型就是所謂的"記憶策略模型"（πmem）。當新任務來臨，這個小模型不是去翻舊檔案，而是根據當前任務的具體情境，現場生成一段量身定製的建議。就像一位資深廚師，他不需要翻菜譜，而是憑藉對烹飪的深刻理解，直接告訴你這道菜今天怎麼做最好。

而且，這位"資深廚師"還有一個更厲害的本領：當他判斷你這道菜其實很簡單，或者他的建議可能幫倒忙時，他會主動選擇閉嘴。這就是Mem-π的"棄權"機制——系統會自動判斷"現在需不需要給建議"，而不是任何情況下都開口說話。

---

**二、兩階段的成長曆程：先博覽群書，再歷練實戰**

Mem-π的記憶策略模型是怎麼培養出來的？這個過程分為兩個階段，可以把它理解為一個年輕廚師的成長故事。

第一階段叫做"經驗蒸餾"。在這個階段，模型要讀大量的"菜譜集"——也就是研究者從AI過去執行任務的軌跡中整理出來的經驗提示庫。這個提示庫由另一個工具（JEF-Hinter）負責生成，它能從長長的操作記錄里提煉出關鍵步驟，變成簡潔、可復用的操作建議。記憶模型通過監督學習（就像臨摹字帖）大量閱讀這些經驗，把它們內化成自己的知識。

完成第一階段之後，模型已經掌握了大量通用知識，但還不夠聰明——它不知道什麼時候該說話，也不知道自己生成的建議是不是真的有用。於是進入第二階段，叫做"適應蒸餾"。

在這個階段，模型進入了真實的任務環境，通過強化學習來精進自己。強化學習的核心邏輯是：你做的事情是否讓下游的AI任務成功了？成功了就是好的，失敗了就要反思。模型在真實任務中反覆嘗試，收到任務成功與否的反饋信號，逐漸學會兩件事：第一，什麼樣的建議真正有用；第二，什麼時候應該保持沉默。

贊助商廣告

為了支持"保持沉默"這個能力，研究團隊給模型的詞表里加了兩個特殊標記：`[GENERATE]`（我要生成建議）和`[ABSTAIN]`（我選擇不說話）。每次模型接到一個任務，它都要先決定說還是不說，如果選擇說，再決定說什麼。

---

**三、訓練中的精妙設計：讓"說"與"說什麼"分開學習**

這裡有一個很微妙的技術挑戰，也是這篇論文最有創意的地方之一。

如果你直接用常規方法訓練模型同時學"要不要說話"和"說什麼內容"，就會遇到一個不公平的競爭問題。"要不要說話"只有一兩個詞（`[GENERATE]`或`[ABSTAIN]`），而"說什麼"可能有幾十上百個詞。在梯度更新時，內容部分的信號會壓倒性地蓋過決策部分，模型根本學不好"要不要說話"這件事。

這就好像你同時評估一個廚師的兩件事：一是他決定做不做這道菜（一個簡單的是/否選擇），二是他怎麼做這道菜（一整套複雜的操作）。如果你把所有反饋放在一起評分，"怎麼做"的細節會淹沒"要不要做"這個決定的學習。

為了解決這個問題，研究團隊設計了"決策-內容解耦策略優化"方法。具體做法是這樣的：在訓練時，對於每一個任務，模型都會生成一組結構化的嘗試——強制包含一個"棄權"版本和三個"生成建議"版本。然後，研究團隊把學習信號拆成兩層：一層是"決策層信號"，專門用來評估棄權和生成相比哪個更有利，這個信號只作用於決策標記；另一層是"內容層信號"，用於評估三個生成版本中哪個建議更好，這個信號只作用於內容部分的詞。

更精妙的是，內容層的學習還有一個"門控"機制——只有當生成建議比棄權更好的時候，內容層的信號才被激活。如果棄權表現更好，那就不應該去優化"生成了什麼內容"，因為根本就不應該生成任何內容。這個設計確保了模型不會在"應該閉嘴的情況下反而越學越愛說話"。

此外，模型還有一個"建議不要太長"的懲罰機制。建議越冗長，獎勵就會被輕微扣除，這促使模型生成簡潔有用的建議，而不是把所有能想到的內容一股腦塞進去。

贊助商廣告

---

**四、四個測試場地：在真實戰場上接受檢驗**

研究團隊在四個差異顯著的任務環境中測試了Mem-π，覆蓋了網頁操作、企業軟體、終端命令行和文字遊戲世界等不同場景。

第一個測試場地是WebArena，一個包含812個網頁操作任務的仿真環境，涵蓋網上購物、內容管理系統、GitLab代碼倉庫、Reddit論壇和地圖服務五個領域。每個任務都要求AI在真實的網頁界面上點擊、填寫、搜索，完成一系列多步驟操作，難度相當高。

第二個是WorkArena，一個基於ServiceNow企業軟體平台的測試環境，考察AI處理企業日常工作流的能力，包括菜單導航、表單填寫、列表篩選和知識庫查詢四類任務。這裡有33種任務模板，每種模板會用不同的隨機參數實例化，測試AI能否舉一反三，而不是死記硬背。

第三個是LifelongAgentBench（LAB），專門測試AI在終端環境中的長期經驗復用能力。測試分兩個子集：一個是資料庫操作（SQL命令，22種技能），另一個是作業系統操作（Bash命令，29種技能）。每個子集各有500個任務，按7:3分為訓練集和測試集。

第四個是ALFWorld，一個文字版的家務模擬環境。AI需要在文字描述的家居場景中找到物品、清潔物品、加熱或冷藏物品，再放到指定位置。雖然是文字遊戲，但任務需要多步規劃，難度不低。

對比的基準方法包括：直接使用基礎AI（不加任何記憶），RAG檢索（BM25算法找最相似的經驗），Mem0（RAG加上規則管理），Memory-R1（用強化學習訓練記憶管理器），以及MemRL（學習Q值來做有用性感知檢索）。所有實驗使用gpt-5.4-mini作為基礎下游智能體模型，Mem-π的記憶策略模型則基於Qwen-2.5-7B-Instruct構建，兩者是完全獨立的模型。

---

**五、成績單：全面領先，WebArena相對提升近50%**

結果相當清晰。在所有四個基準測試上，Mem-π的表現均優於所有對比方法。

在WebArena上，Mem-π的平均任務成功率達到43.1%，而基礎智能體（不加記憶）為27.1%，提升幅度約為59%，相對改善接近50%（從基礎值來看）。在CMS子任務上，Mem-π從基礎的14.6%提升到42.8%，這28.2個百分點的絕對提升格外醒目；在Reddit子任務上，從28.8%提升到52.6%，同樣驚人。在WorkArena上，平均成功率從42.0%提升到50.3%，表單類任務的提升幅度接近15個百分點。在ALFWorld上，從85.3%提升到91.6%，在一個已經很高基線上仍有明顯進步。在LAB上，資料庫和作業系統任務的綜合成功率從26.8%提升到36.7%。

贊助商廣告

一個有趣的發現是：僅完成第一階段訓練（經驗蒸餾，沒有強化學習）的Mem-π，在WebArena上就已經達到35.0%的成功率，和需要完整強化學習訓練的Memory-R1（33.2%）和MemRL（34.0%）不相上下。這說明把經驗"內化"到模型參數裡本身就是一種非常強效的初始化策略——換句話說，"消化吸收了大量菜譜的廚師"，在沒有經過真實廚房歷練的情況下，表現就已經和"在廚房裡摸爬滾打很久但沒好好讀書的廚師"差不多了。而加上第二階段的強化學習之後，Mem-π在WebArena上再提升8.1個百分點，充分說明兩個階段缺一不可。

---

**六、消融實驗：每個設計都有它的道理**

為了驗證每個設計選擇的必要性，研究團隊做了一系列"拆零件"測試，看看去掉某個部分後性能會下降多少。

去掉第一階段初始化（直接從零開始強化學習）：WebArena下降5.2個百分點，ALFWorld下降4.7個百分點。這說明沒有紮實的知識積累，強化學習在這個場景下很難收斂。

把兩個階段合併為一個階段（同時用相似度獎勵和任務成功獎勵訓練）：性能下降更大，WebArena下降6.8個百分點，ALFWorld下降5.9個百分點。原因在於兩個獎勵信號存在衝突：相似度獎勵要求模型的建議和參考答案相似，而任務成功獎勵要求建議真正有用——這兩件事並不總是一致的。

去掉"結構化對比採樣"（不強制每組包含棄權版本）：WebArena下降4.8個百分點，ALFWorld下降4.5個百分點，是所有強化學習相關設計中最關鍵的一項。沒有棄權版本做對照，模型就失去了學習"什麼時候不說話"的機會。

去掉"門控"機制（棄權表現更好時仍然更新內容層梯度）：WebArena下降1.8個百分點，ALFWorld下降2.0個百分點，說明門控機制能有效防止"在應該沉默的時候反而越說越多"。

去掉長度懲罰：性能也有輕微下降，說明簡潔的建議確實比冗長的建議更有利於下游任務。

---

**七、深度分析：棄權不是逃避，而是智慧**

贊助商廣告

研究團隊進一步分析了棄權行為和任務難度之間的關係，結果揭示了一個優雅的模式。

他們把WebArena的任務按照基礎智能體的成功率分成五組：0-20%（最難），20-40%，40-60%，60-80%，80-100%（最簡單）。對於每一組，他們統計了Mem-π的棄權率和任務成功率提升幅度。

結果清晰明了：在最簡單的任務組（基礎成功率80-100%），Mem-π大約71%的情況下選擇棄權；而在最難的任務組（基礎成功率0-20%），棄權率只有約13%。與此同時，任務提升最大的恰恰是最難的那組，提升幅度達9.7個百分點，而最簡單那組只提升1.3個百分點。

這個模式傳達的資訊很清楚：Mem-π學會了一種有分寸的智慧——簡單的任務基礎智能體自己就能搞定，額外建議只會引入噪音；困難的任務才真正需要經驗性的指引。這不是保守，而是精準的判斷。

---

**八、跨模型遷移：給弱智能體訓練的記憶，能否幫助強智能體？**

這個問題很有實踐價值。如果企業用一個較弱的開源模型訓練了記憶策略，能不能把這個記憶策略直接遷移到更強大的閉源模型上使用？

研究團隊做了對比：Mem-π記憶策略分別搭配訓練時使用的Qwen2.5-7B（較弱的開源模型）和未見過的GPT-5.4-mini（更強的閉源模型）。在WebArena上，搭配Qwen2.5-7B時，Mem-π帶來的提升是18.2個百分點（而RAG只有4.2個百分點）；搭配GPT-5.4-mini時，提升是16.0個百分點（RAG只有4.3個百分點）。Mem-π的提升幅度是RAG的3到5倍。

這意味著：基於弱智能體訓練出來的記憶策略，確實能遷移到強智能體上繼續發揮作用。直覺上可以理解：當記憶策略被訓練用於幫助一個"比較笨"的智能體時，它必須把任務建議說得非常清晰明確，這種顯式表達對於更強的智能體同樣有用，甚至可能更有用。

---

**九、用更少的詞說更有用的話：效率的雙重收益**

Mem-π不僅表現更好，還更省。在WebArena上，Mem-π平均每個任務向智能體注入138個"記憶詞"，而僅完成第一階段訓練的版本是200個詞，Memory-R1是225個詞。Mem-π用比Stage 1少31%、比Memory-R1少38%的詞彙量，反而取得了更高的成功率。

贊助商廣告

原因不複雜：棄權機制讓模型不再給已經可以搞定的任務添亂，省下來的詞彙預算反而提升了整體效率。一直說話不如按需說話，按需說話不如說到點子上。

---

**十、案例分析：說與不說之間的微妙邊界**

研究團隊在WebArena上做了詳細的案例分析，把測試集按照基礎智能體、RAG和Mem-π三者的成功與失敗情況分成了八個區域，逐一分析Mem-π的優勢和局限。

在Mem-π獨立成功（RAG失敗）的案例中，最典型的是"數量不匹配"問題。任務問的是"列出排名前3的搜索詞"，但記憶庫里最相似的經驗來自一個關於"前2名"的任務。RAG直接把那個經驗搬出來，建議里寫的是"讀取前兩行"——數字直接錯了。Mem-π則根據當前任務里明確寫著"3"這個數字，自動生成了"取前三行"的建議，精準命中。

在棄權成功（RAG失敗，棄權贏）的案例中，有一個任務是"找到最適合存放40張Switch遊戲卡的收納方案"。記憶庫里的經驗鎖定在"遊戲卡盒"或"卡帶收納盒"這一類窄範圍產品上。RAG把這個偏頗的搜索建議傳給了智能體，讓它只看了一部分產品就做出判斷，最終搜索範圍太窄。Mem-π判斷這個任務不需要限制搜索方向，直接棄權，讓基礎智能體自由搜索，反而找到了更合適的收納方案。

當然，Mem-π也有失手的情況。在一個關於"預覽Magento主題"的任務里，正確操作是點擊"操作"列下的"查看"鏈接，而Mem-π生成的建議反而告訴智能體"不要點擊操作列"——恰恰和正確做法相反。RAG在這個任務上反而成功了，因為它直接複製了來源任務的原始步驟，而生成的建議在這裡出現了不合理的"創作"。這類逆轉案例占總體很少（4個任務），但說明生成式方法在某些情況下確實可能產生合理但有誤的指令。

此外，還有一類情況是所有方法都無能為力——通常是因為底層工具存在限制。比如某個任務需要刷新Magento的統計報表，但伺服器在有限步數內無法完成刷新，任何再好的記憶建議都無法幫助智能體突破工具層面的瓶頸。

贊助商廣告

---

說到底，Mem-π這套框架做的事情，換一種說法其實相當直觀：它在教一個AI助手"什麼時候該開口，什麼時候該閉嘴"，以及"開口了要說得有針對性，而不是照搬過去的說法"。這聽起來像是人之常情，但對AI系統來說，做到這一點需要相當精心的設計。

這項研究的意義不僅僅在於性能數字的提升。它揭示了一個更深層的問題：在AI系統中，記憶不應該是一個被動的"存檔-檢索"機制，而應該是一個主動的、能感知當前情境的決策過程。這和認知科學對人類記憶的理解也是一致的——人類在回憶時並非播放錄像，而是根據當前需要動態重構。

對普通用戶來說，這個研究方向意味著未來的AI助手可能真的更"懂你"——不是因為它記住了你的一切，而是因為它學會了在合適的時候、用合適的方式，提供真正切題的幫助，並在幫了倒忙的時候主動收手。

研究團隊也坦誠地指出了未來的方向：閉環的持續記憶學習（讓智能體在運行中不斷更新記憶策略），以及可溯源的記憶（能追蹤生成建議的依據，兼顧靈活性和可靠性）。有興趣的讀者可以通過arXiv編號2605.21463查閱完整論文，裡面包含了更詳細的實驗數據和技術細節。

---

**Q&A**

Q1：Mem-π的棄權機制是怎麼訓練出來的，為什麼不直接讓模型一直生成建議？

A：Mem-π通過強化學習的"結構化對比採樣"來訓練棄權行為——每次訓練強制生成一個棄權版本和三個生成建議版本，比較兩者對下游任務的貢獻。研究發現，如果模型一直生成建議，在任務本身已經很簡單的情況下，多餘的建議反而引入噪音，拉低成功率。棄權機制讓模型學會"簡單任務不插嘴"，平均節省了約31%的建議詞數，同時提升了整體表現。

Q2：Mem-π和RAG檢索記憶相比，最核心的區別是什麼？

A：RAG是"找最像的舊經驗直接搬過來用"，生成的建議固定不變，遇到和舊經驗細節不符的新任務就容易出錯，比如把"前2名"的經驗套用到"前3名"的任務上。Mem-π把經驗"消化"進模型參數，遇到新任務時根據當前具體內容重新生成建議，能自動修正數量、格式等細節差異。簡單來說，RAG是"複印"，Mem-π是"理解後重寫"。

贊助商廣告

Q3：Mem-π的記憶策略模型和執行任務的智能體模型是同一個嗎？

A：不是，兩者完全獨立。記憶策略模型（πmem）是專門訓練來生成任務建議的小模型，基於Qwen-2.5-7B-Instruct構建；執行任務的下游智能體是單獨的模型，論文主實驗用的是gpt-5.4-mini。這種分離設計的好處是：可以用一個較小的私有模型作為記憶策略，搭配更強大的前沿模型執行任務；而且記憶策略訓練好後，可以遷移到不同的下游智能體上使用，無需重新訓練。