宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

蒙特婁大學等機構聯合研發:AI助手終於學會了「按需記憶」,不再什麼都往腦子裡塞

2026年05月27日 首頁 » 熱門科技

這項由ServiceNow AI Research、蒙特婁大學、麥吉爾大學、蒙特婁理工學院以及加拿大人工智慧研究所CIFAR聯合開展的研究,以預印本形式發表於2026年5月,論文編號為arXiv:2605.21463。有興趣深入了解的讀者可以通過該編號查詢完整原文。

**一段關於"記性太好"的煩惱**

你有沒有遇到過這樣一種情況:朋友給你推薦了一家館子,說"那家紅燒肉特別好吃",結果你到了那裡發現今天根本沒有紅燒肉,只有清蒸魚。朋友的建議並沒有錯,但她的記憶停留在上次她去的時候,而那個"記憶"放到你今天的情況里就完全不管用了。

人工智慧助手面臨的問題和這個類似。當我們讓AI幫我們完成一些複雜任務——比如在網上購物、操作企業軟體系統、或者完成家務類的虛擬任務——AI往往需要"記住"過去的經驗,才能在新任務中少走彎路。於是研究者們開始給AI配備"記憶庫",把過去的經驗存起來,下次遇到類似情況時翻出來用。

但問題來了:這種翻出來的記憶往往是死板的。就像你朋友那句"紅燒肉特別好吃"的推薦,被原封不動地貼在你今天的菜單上——不管今天有沒有紅燒肉,推薦就是推薦。AI在面對和過去"相似但不完全相同"的新任務時,檢索出來的舊經驗會帶著過去的具體細節,把AI引向錯誤的方向,甚至越幫越忙。

這篇論文的研究團隊決定換一個思路。他們設計了一套叫做**Mem-π**(讀作"Mem-pi")的新框架,把AI的記憶從"倉庫里翻檔案"變成"根據當前情況現場生成建議"。更關鍵的是,這套系統還學會了判斷:什麼時候應該給出建議,什麼時候應該保持沉默。

---

**一、從"查檔案"到"現場出主意":記憶方式的根本轉變**

大多數現有的AI記憶系統工作方式有點像圖書館員。圖書館裡存了大量書籍(也就是過去的經驗),當你來問一個問題,圖書館員根據你的問題找出最相關的那本書遞給你。這種方式叫做"檢索式記憶",技術上的名字叫RAG(檢索增強生成)。它的好處是可靠——書里寫什麼就是什麼,不會捏造。但缺點也很明顯:書里寫的是過去某個具體情境的經驗,而你現在的情境可能和當初稍有不同。

比如,記憶庫里有一條經驗是"找出店鋪排名前2的搜索詞",但你今天的任務是"找出前3的搜索詞"。圖書館員直接遞給你那本寫著"找前2個"的書,AI就會照著做,最終給你錯誤的答案。原因很簡單:舊經驗的"2"被原封不動地搬到了新任務里。

Mem-π的做法完全不同。它不維護一個需要不斷翻閱的檔案庫,而是把大量過去的經驗"消化吸收"到一個專門的小模型里——這個小模型就是所謂的"記憶策略模型"(πmem)。當新任務來臨,這個小模型不是去翻舊檔案,而是根據當前任務的具體情境,現場生成一段量身定製的建議。就像一位資深廚師,他不需要翻菜譜,而是憑藉對烹飪的深刻理解,直接告訴你這道菜今天怎麼做最好。

而且,這位"資深廚師"還有一個更厲害的本領:當他判斷你這道菜其實很簡單,或者他的建議可能幫倒忙時,他會主動選擇閉嘴。這就是Mem-π的"棄權"機制——系統會自動判斷"現在需不需要給建議",而不是任何情況下都開口說話。

---

**二、兩階段的成長曆程:先博覽群書,再歷練實戰**

Mem-π的記憶策略模型是怎麼培養出來的?這個過程分為兩個階段,可以把它理解為一個年輕廚師的成長故事。

第一階段叫做"經驗蒸餾"。在這個階段,模型要讀大量的"菜譜集"——也就是研究者從AI過去執行任務的軌跡中整理出來的經驗提示庫。這個提示庫由另一個工具(JEF-Hinter)負責生成,它能從長長的操作記錄里提煉出關鍵步驟,變成簡潔、可復用的操作建議。記憶模型通過監督學習(就像臨摹字帖)大量閱讀這些經驗,把它們內化成自己的知識。

完成第一階段之後,模型已經掌握了大量通用知識,但還不夠聰明——它不知道什麼時候該說話,也不知道自己生成的建議是不是真的有用。於是進入第二階段,叫做"適應蒸餾"。

在這個階段,模型進入了真實的任務環境,通過強化學習來精進自己。強化學習的核心邏輯是:你做的事情是否讓下游的AI任務成功了?成功了就是好的,失敗了就要反思。模型在真實任務中反覆嘗試,收到任務成功與否的反饋信號,逐漸學會兩件事:第一,什麼樣的建議真正有用;第二,什麼時候應該保持沉默。

為了支持"保持沉默"這個能力,研究團隊給模型的詞表里加了兩個特殊標記:`[GENERATE]`(我要生成建議)和`[ABSTAIN]`(我選擇不說話)。每次模型接到一個任務,它都要先決定說還是不說,如果選擇說,再決定說什麼。

---

**三、訓練中的精妙設計:讓"說"與"說什麼"分開學習**

這裡有一個很微妙的技術挑戰,也是這篇論文最有創意的地方之一。

如果你直接用常規方法訓練模型同時學"要不要說話"和"說什麼內容",就會遇到一個不公平的競爭問題。"要不要說話"只有一兩個詞(`[GENERATE]`或`[ABSTAIN]`),而"說什麼"可能有幾十上百個詞。在梯度更新時,內容部分的信號會壓倒性地蓋過決策部分,模型根本學不好"要不要說話"這件事。

這就好像你同時評估一個廚師的兩件事:一是他決定做不做這道菜(一個簡單的是/否選擇),二是他怎麼做這道菜(一整套複雜的操作)。如果你把所有反饋放在一起評分,"怎麼做"的細節會淹沒"要不要做"這個決定的學習。

為了解決這個問題,研究團隊設計了"決策-內容解耦策略優化"方法。具體做法是這樣的:在訓練時,對於每一個任務,模型都會生成一組結構化的嘗試——強制包含一個"棄權"版本和三個"生成建議"版本。然後,研究團隊把學習信號拆成兩層:一層是"決策層信號",專門用來評估棄權和生成相比哪個更有利,這個信號只作用於決策標記;另一層是"內容層信號",用於評估三個生成版本中哪個建議更好,這個信號只作用於內容部分的詞。

更精妙的是,內容層的學習還有一個"門控"機制——只有當生成建議比棄權更好的時候,內容層的信號才被激活。如果棄權表現更好,那就不應該去優化"生成了什麼內容",因為根本就不應該生成任何內容。這個設計確保了模型不會在"應該閉嘴的情況下反而越學越愛說話"。

此外,模型還有一個"建議不要太長"的懲罰機制。建議越冗長,獎勵就會被輕微扣除,這促使模型生成簡潔有用的建議,而不是把所有能想到的內容一股腦塞進去。

---

**四、四個測試場地:在真實戰場上接受檢驗**

研究團隊在四個差異顯著的任務環境中測試了Mem-π,覆蓋了網頁操作、企業軟體、終端命令行和文字遊戲世界等不同場景。

第一個測試場地是WebArena,一個包含812個網頁操作任務的仿真環境,涵蓋網上購物、內容管理系統、GitLab代碼倉庫、Reddit論壇和地圖服務五個領域。每個任務都要求AI在真實的網頁界面上點擊、填寫、搜索,完成一系列多步驟操作,難度相當高。

第二個是WorkArena,一個基於ServiceNow企業軟體平台的測試環境,考察AI處理企業日常工作流的能力,包括菜單導航、表單填寫、列表篩選和知識庫查詢四類任務。這裡有33種任務模板,每種模板會用不同的隨機參數實例化,測試AI能否舉一反三,而不是死記硬背。

第三個是LifelongAgentBench(LAB),專門測試AI在終端環境中的長期經驗復用能力。測試分兩個子集:一個是資料庫操作(SQL命令,22種技能),另一個是作業系統操作(Bash命令,29種技能)。每個子集各有500個任務,按7:3分為訓練集和測試集。

第四個是ALFWorld,一個文字版的家務模擬環境。AI需要在文字描述的家居場景中找到物品、清潔物品、加熱或冷藏物品,再放到指定位置。雖然是文字遊戲,但任務需要多步規劃,難度不低。

對比的基準方法包括:直接使用基礎AI(不加任何記憶),RAG檢索(BM25算法找最相似的經驗),Mem0(RAG加上規則管理),Memory-R1(用強化學習訓練記憶管理器),以及MemRL(學習Q值來做有用性感知檢索)。所有實驗使用gpt-5.4-mini作為基礎下游智能體模型,Mem-π的記憶策略模型則基於Qwen-2.5-7B-Instruct構建,兩者是完全獨立的模型。

---

**五、成績單:全面領先,WebArena相對提升近50%**

結果相當清晰。在所有四個基準測試上,Mem-π的表現均優於所有對比方法。

在WebArena上,Mem-π的平均任務成功率達到43.1%,而基礎智能體(不加記憶)為27.1%,提升幅度約為59%,相對改善接近50%(從基礎值來看)。在CMS子任務上,Mem-π從基礎的14.6%提升到42.8%,這28.2個百分點的絕對提升格外醒目;在Reddit子任務上,從28.8%提升到52.6%,同樣驚人。在WorkArena上,平均成功率從42.0%提升到50.3%,表單類任務的提升幅度接近15個百分點。在ALFWorld上,從85.3%提升到91.6%,在一個已經很高基線上仍有明顯進步。在LAB上,資料庫和作業系統任務的綜合成功率從26.8%提升到36.7%。

一個有趣的發現是:僅完成第一階段訓練(經驗蒸餾,沒有強化學習)的Mem-π,在WebArena上就已經達到35.0%的成功率,和需要完整強化學習訓練的Memory-R1(33.2%)和MemRL(34.0%)不相上下。這說明把經驗"內化"到模型參數裡本身就是一種非常強效的初始化策略——換句話說,"消化吸收了大量菜譜的廚師",在沒有經過真實廚房歷練的情況下,表現就已經和"在廚房裡摸爬滾打很久但沒好好讀書的廚師"差不多了。而加上第二階段的強化學習之後,Mem-π在WebArena上再提升8.1個百分點,充分說明兩個階段缺一不可。

---

**六、消融實驗:每個設計都有它的道理**

為了驗證每個設計選擇的必要性,研究團隊做了一系列"拆零件"測試,看看去掉某個部分後性能會下降多少。

去掉第一階段初始化(直接從零開始強化學習):WebArena下降5.2個百分點,ALFWorld下降4.7個百分點。這說明沒有紮實的知識積累,強化學習在這個場景下很難收斂。

把兩個階段合併為一個階段(同時用相似度獎勵和任務成功獎勵訓練):性能下降更大,WebArena下降6.8個百分點,ALFWorld下降5.9個百分點。原因在於兩個獎勵信號存在衝突:相似度獎勵要求模型的建議和參考答案相似,而任務成功獎勵要求建議真正有用——這兩件事並不總是一致的。

去掉"結構化對比採樣"(不強制每組包含棄權版本):WebArena下降4.8個百分點,ALFWorld下降4.5個百分點,是所有強化學習相關設計中最關鍵的一項。沒有棄權版本做對照,模型就失去了學習"什麼時候不說話"的機會。

去掉"門控"機制(棄權表現更好時仍然更新內容層梯度):WebArena下降1.8個百分點,ALFWorld下降2.0個百分點,說明門控機制能有效防止"在應該沉默的時候反而越說越多"。

去掉長度懲罰:性能也有輕微下降,說明簡潔的建議確實比冗長的建議更有利於下游任務。

---

**七、深度分析:棄權不是逃避,而是智慧**

研究團隊進一步分析了棄權行為和任務難度之間的關係,結果揭示了一個優雅的模式。

他們把WebArena的任務按照基礎智能體的成功率分成五組:0-20%(最難),20-40%,40-60%,60-80%,80-100%(最簡單)。對於每一組,他們統計了Mem-π的棄權率和任務成功率提升幅度。

結果清晰明了:在最簡單的任務組(基礎成功率80-100%),Mem-π大約71%的情況下選擇棄權;而在最難的任務組(基礎成功率0-20%),棄權率只有約13%。與此同時,任務提升最大的恰恰是最難的那組,提升幅度達9.7個百分點,而最簡單那組只提升1.3個百分點。

這個模式傳達的資訊很清楚:Mem-π學會了一種有分寸的智慧——簡單的任務基礎智能體自己就能搞定,額外建議只會引入噪音;困難的任務才真正需要經驗性的指引。這不是保守,而是精準的判斷。

---

**八、跨模型遷移:給弱智能體訓練的記憶,能否幫助強智能體?**

這個問題很有實踐價值。如果企業用一個較弱的開源模型訓練了記憶策略,能不能把這個記憶策略直接遷移到更強大的閉源模型上使用?

研究團隊做了對比:Mem-π記憶策略分別搭配訓練時使用的Qwen2.5-7B(較弱的開源模型)和未見過的GPT-5.4-mini(更強的閉源模型)。在WebArena上,搭配Qwen2.5-7B時,Mem-π帶來的提升是18.2個百分點(而RAG只有4.2個百分點);搭配GPT-5.4-mini時,提升是16.0個百分點(RAG只有4.3個百分點)。Mem-π的提升幅度是RAG的3到5倍。

這意味著:基於弱智能體訓練出來的記憶策略,確實能遷移到強智能體上繼續發揮作用。直覺上可以理解:當記憶策略被訓練用於幫助一個"比較笨"的智能體時,它必須把任務建議說得非常清晰明確,這種顯式表達對於更強的智能體同樣有用,甚至可能更有用。

---

**九、用更少的詞說更有用的話:效率的雙重收益**

Mem-π不僅表現更好,還更省。在WebArena上,Mem-π平均每個任務向智能體注入138個"記憶詞",而僅完成第一階段訓練的版本是200個詞,Memory-R1是225個詞。Mem-π用比Stage 1少31%、比Memory-R1少38%的詞彙量,反而取得了更高的成功率。

原因不複雜:棄權機制讓模型不再給已經可以搞定的任務添亂,省下來的詞彙預算反而提升了整體效率。一直說話不如按需說話,按需說話不如說到點子上。

---

**十、案例分析:說與不說之間的微妙邊界**

研究團隊在WebArena上做了詳細的案例分析,把測試集按照基礎智能體、RAG和Mem-π三者的成功與失敗情況分成了八個區域,逐一分析Mem-π的優勢和局限。

在Mem-π獨立成功(RAG失敗)的案例中,最典型的是"數量不匹配"問題。任務問的是"列出排名前3的搜索詞",但記憶庫里最相似的經驗來自一個關於"前2名"的任務。RAG直接把那個經驗搬出來,建議里寫的是"讀取前兩行"——數字直接錯了。Mem-π則根據當前任務里明確寫著"3"這個數字,自動生成了"取前三行"的建議,精準命中。

在棄權成功(RAG失敗,棄權贏)的案例中,有一個任務是"找到最適合存放40張Switch遊戲卡的收納方案"。記憶庫里的經驗鎖定在"遊戲卡盒"或"卡帶收納盒"這一類窄範圍產品上。RAG把這個偏頗的搜索建議傳給了智能體,讓它只看了一部分產品就做出判斷,最終搜索範圍太窄。Mem-π判斷這個任務不需要限制搜索方向,直接棄權,讓基礎智能體自由搜索,反而找到了更合適的收納方案。

當然,Mem-π也有失手的情況。在一個關於"預覽Magento主題"的任務里,正確操作是點擊"操作"列下的"查看"鏈接,而Mem-π生成的建議反而告訴智能體"不要點擊操作列"——恰恰和正確做法相反。RAG在這個任務上反而成功了,因為它直接複製了來源任務的原始步驟,而生成的建議在這裡出現了不合理的"創作"。這類逆轉案例占總體很少(4個任務),但說明生成式方法在某些情況下確實可能產生合理但有誤的指令。

此外,還有一類情況是所有方法都無能為力——通常是因為底層工具存在限制。比如某個任務需要刷新Magento的統計報表,但伺服器在有限步數內無法完成刷新,任何再好的記憶建議都無法幫助智能體突破工具層面的瓶頸。

---

說到底,Mem-π這套框架做的事情,換一種說法其實相當直觀:它在教一個AI助手"什麼時候該開口,什麼時候該閉嘴",以及"開口了要說得有針對性,而不是照搬過去的說法"。這聽起來像是人之常情,但對AI系統來說,做到這一點需要相當精心的設計。

這項研究的意義不僅僅在於性能數字的提升。它揭示了一個更深層的問題:在AI系統中,記憶不應該是一個被動的"存檔-檢索"機制,而應該是一個主動的、能感知當前情境的決策過程。這和認知科學對人類記憶的理解也是一致的——人類在回憶時並非播放錄像,而是根據當前需要動態重構。

對普通用戶來說,這個研究方向意味著未來的AI助手可能真的更"懂你"——不是因為它記住了你的一切,而是因為它學會了在合適的時候、用合適的方式,提供真正切題的幫助,並在幫了倒忙的時候主動收手。

研究團隊也坦誠地指出了未來的方向:閉環的持續記憶學習(讓智能體在運行中不斷更新記憶策略),以及可溯源的記憶(能追蹤生成建議的依據,兼顧靈活性和可靠性)。有興趣的讀者可以通過arXiv編號2605.21463查閱完整論文,裡面包含了更詳細的實驗數據和技術細節。

---

**Q&A**

Q1:Mem-π的棄權機制是怎麼訓練出來的,為什麼不直接讓模型一直生成建議?

A:Mem-π通過強化學習的"結構化對比採樣"來訓練棄權行為——每次訓練強制生成一個棄權版本和三個生成建議版本,比較兩者對下游任務的貢獻。研究發現,如果模型一直生成建議,在任務本身已經很簡單的情況下,多餘的建議反而引入噪音,拉低成功率。棄權機制讓模型學會"簡單任務不插嘴",平均節省了約31%的建議詞數,同時提升了整體表現。

Q2:Mem-π和RAG檢索記憶相比,最核心的區別是什麼?

A:RAG是"找最像的舊經驗直接搬過來用",生成的建議固定不變,遇到和舊經驗細節不符的新任務就容易出錯,比如把"前2名"的經驗套用到"前3名"的任務上。Mem-π把經驗"消化"進模型參數,遇到新任務時根據當前具體內容重新生成建議,能自動修正數量、格式等細節差異。簡單來說,RAG是"複印",Mem-π是"理解後重寫"。

Q3:Mem-π的記憶策略模型和執行任務的智能體模型是同一個嗎?

A:不是,兩者完全獨立。記憶策略模型(πmem)是專門訓練來生成任務建議的小模型,基於Qwen-2.5-7B-Instruct構建;執行任務的下游智能體是單獨的模型,論文主實驗用的是gpt-5.4-mini。這種分離設計的好處是:可以用一個較小的私有模型作為記憶策略,搭配更強大的前沿模型執行任務;而且記憶策略訓練好後,可以遷移到不同的下游智能體上使用,無需重新訓練。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新