近年來,人工智慧智能體在各個領域都展現出了驚人的能力,但有一個問題始終困擾著研究者:如何讓AI擁有像人類一樣的記憶能力?北京人工智慧研究院的研究團隊最近發表了一項突破性研究,提出了名為"通用智能體記憶"(GAM)的全新框架。這項研究由北京人工智慧研究院的嚴博遠、李超凡等研究者主導,聯合中國人民大學、北京大學和香港理工大學的學者共同完成,於2025年11月發表在arXiv預印本平台,論文編號為arXiv:2511.18423v1。
當我們回想昨天發生的事情時,大腦不會把每一個細節都完整地存儲下來,而是會在需要時主動搜索和重構相關資訊。但目前的AI記憶系統卻像是一個過度壓縮的文件夾,為了節省空間而丟失了太多重要細節。研究團隊意識到,傳統的AI記憶系統就像是提前準備好的罐頭食品,雖然方便取用,但在加工過程中不可避免地損失了原有的營養和口感。GAM的創新之處在於,它不再預先壓縮所有資訊,而是像一位經驗豐富的圖書管理員,既保存完整的資料,又能根據具體需求快速找到最相關的內容。
這項研究的核心理念可以用愛因斯坦的一句名言來概括:"智慧不在於儲存資訊,而在於知道在哪裡找到資訊。"正是基於這一洞察,研究團隊設計了一個全新的記憶架構,讓AI能夠在保持完整歷史資訊的同時,根據當前任務的具體需求動態生成最優的記憶內容。
一、傳統AI記憶系統的根本缺陷
要理解GAM的革命性意義,我們首先需要了解傳統AI記憶系統面臨的困境。想像一下,你是一位忙碌的辦公室職員,每天需要處理大量的文件和資訊。傳統的AI記憶系統就像是一個固執的助理,總是在你還沒提出具體要求時,就把所有重要文件打包壓縮成幾頁摘要。這種做法看似高效,但問題顯而易見:當你需要某個特定細節時,那些被"優化"掉的資訊永遠找不回來了。
現有的AI記憶系統普遍採用"提前編譯"的策略,類似於把一整本百科全書壓縮成一頁紙的摘要。這種方法的問題在於,壓縮過程中必然會丟失大量細節資訊,而這些看似不重要的細節往往在特定情況下變得至關重要。更糟糕的是,這種預設的記憶結構無法靈活適應各種不同的任務需求,就像用同一把鑰匙試圖打開所有不同的鎖。
研究團隊發現,這種傳統方法還有另一個致命缺陷:它過分依賴領域專家的手工設計。這就好比每次換一個新工作環境,你都需要重新訓練那位助理如何整理文件。這不僅效率低下,還嚴重限制了系統在不同領域的適用性。當AI智能體面對新的應用場景時,往往需要重新設計整套記憶機制,這顯然無法滿足通用人工智慧的發展需求。
二、GAM的核心創新:即時編譯式記憶
面對傳統方法的種種局限,研究團隊提出了一個全新的思路:既然壓縮會導致資訊丟失,那為什麼不保存完整資訊,而在需要時進行智能檢索呢?這就是GAM採用的"即時編譯"原理。
回到圖書管理員的比喻,GAM就像是一位非常聰明的圖書管理員,她不會把所有書籍都撕掉只留目錄,而是保存完整的藏書,同時建立一套高效的索引系統。當讀者提出具體需求時,她能夠迅速定位相關資料,並根據讀者的具體需要整理出最合適的資訊組合。
GAM的架構包含兩個核心組件:記憶者(Memorizer)和研究者(Researcher)。記憶者的工作就像一位勤奮的檔案員,負責接收智能體的歷史活動記錄,為每個重要事件創建簡潔的摘要,同時將完整的原始資訊存儲在一個被稱為"頁面存儲庫"的地方。這種設計確保了既有便於快速瀏覽的索引,又保留了完整的歷史細節。
研究者則扮演著智能檢索專家的角色。當智能體提出具體請求時,研究者會根據預先構建的記憶索引,在頁面存儲庫中進行深度搜索。這個過程不是簡單的關鍵詞匹配,而是一個包含規劃、搜索和反思的完整研究過程。研究者會分析當前任務的資訊需求,制定搜索策略,執行檢索操作,並對結果進行評估,直到收集到足夠回答問題的資訊為止。
這種設計的巧妙之處在於,它將記憶的創建和使用分離開來。在離線階段,系統只需要進行輕量級的記憶構建,而將計算密集型的工作留到在線服務時進行。這就像是一個智能倉儲系統,平時只需要簡單歸類商品,而在接到訂單時才進行精確的揀選和包裝。
三、雙智能體協作:分工明確的記憶系統
GAM的一個突出特點是採用了雙智能體協作模式。這種設計靈感來自人類大腦中記憶形成和檢索的不同機制。在人腦中,海馬體負責形成新記憶,而前額葉皮層則負責記憶的檢索和整合。GAM模仿了這種分工合作的模式。
記憶者組件的工作流程包含兩個主要操作。首先是"記憶化"過程,當新的會話或活動記錄到達時,記憶者會結合當前的記憶內容,為新資訊生成一個簡潔而全面的摘要。這個過程就像是每天寫日記,既要記錄當天的重要事件,又要與之前的經歷形成連貫的敘述。其次是"分頁"過程,記憶者會為每個新會話生成包含上下文資訊的頁面頭部,然後將完整的會話內容和頭部資訊組合成一個頁面,存儲到頁面庫中。
研究者組件則實現了更為複雜的智能檢索過程。當接收到用戶請求時,研究者首先進行"規劃",基於現有記憶內容分析請求的潛在資訊需求,並制定具體的搜索計劃。接著執行"搜索"操作,使用多種檢索工具並行搜索相關頁面,然後將搜索結果與之前的整合結果進行融合。最後進行"反思",評估當前收集的資訊是否足以回答原始請求,如果不夠完整,則生成新的搜索需求繼續下一輪檢索。
這種疊代式的深度研究過程是GAM的一個重要創新。傳統的記憶系統通常只進行一次性的資訊檢索,而GAM的研究者可以進行多輪搜索和思考,就像一個真正的研究助理一樣,不斷完善對問題的理解和答案的完整性。
四、多樣化的搜索工具與策略
GAM的另一個技術亮點是集成了多種互補的搜索工具。這就像是給研究者配備了一套完整的調研工具箱,每種工具都有其特定的優勢和適用場景。
嵌入式向量搜索工具擅長理解語義相似性,類似於一個理解文本深層含義的智能助手。當用戶提出概念性問題或需要推理性解答時,這個工具能夠找到在語義上相關的內容,即使關鍵詞沒有直接匹配。BM25關鍵詞檢索工具則專長於精確的詞彙匹配,就像傳統圖書館的主題索引,能夠快速定位包含特定術語的頁面。頁面索引直接訪問工具允許根據頁面編號直接獲取完整內容,適用於需要查看特定歷史記錄的場景。
這三種工具的組合使用顯著提高了資訊檢索的覆蓋面和準確性。研究者會根據具體任務的特點,智能地選擇合適的工具組合。對於需要精確事實查找的任務,關鍵詞檢索可能更加有效;對於需要理解複雜關係或進行推理的任務,語義搜索則更為重要;而當記憶中已經標註了相關頁面位置時,直接訪問能夠快速獲取完整資訊。
更重要的是,這些工具可以並行使用,大大提高了搜索效率。這就像同時派遣多個專家從不同角度調研同一個問題,然後綜合所有的發現得出最全面的結論。
五、端到端的性能優化機制
GAM不僅在架構設計上具有創新性,還引入了端到端的性能優化框架。這個優化過程就像訓練一支專業的研究團隊,讓每個成員都能不斷提高自己的工作效率。
整個優化框架基於強化學習原理。系統會根據最終任務完成的質量來評估記憶系統的性能,然後通過策略梯度方法來調整記憶者和研究者的行為策略。這種方法的優勢在於,它不需要人工設計複雜的評估標準,而是直接以任務成功率為導向進行優化。
記憶者的優化重點在於學習如何生成更有用的記憶摘要和頁面組織結構。通過分析哪些類型的記憶內容在後續任務中被頻繁使用,系統能夠逐漸學會突出重要資訊,改進記憶的組織方式。研究者的優化則更為複雜,涉及搜索策略的選擇、查詢詞的生成、資訊整合的方法等多個方面。
這種優化過程是連續進行的,系統會根據新的任務經驗不斷調整和改進。這就像一個學習型組織,每次處理新任務都會積累經驗,逐漸提高工作效率。更重要的是,這種優化是自適應的,能夠根據不同的應用領域自動調整策略,而不需要人工干預。
六、測試時計算擴展能力
GAM的一個獨特優勢是具備"測試時計算擴展"能力。這意味著當面對複雜任務時,系統可以投入更多的計算資源來獲得更好的結果,就像人類在處理困難問題時會花更多時間思考一樣。
這種能力主要體現在兩個方面。首先是反思深度的調節,研究者可以根據任務的複雜程度進行更多輪的搜索和思考。對於簡單問題,可能一輪搜索就足夠了;而對於複雜問題,系統會自動進行多輪深入調研,直到收集到足夠的資訊。其次是檢索頁面數量的動態調整,對於需要大量背景資訊的任務,系統會擴大搜索範圍,檢索更多相關頁面。
實驗結果顯示,隨著測試時計算量的增加,GAM的性能呈現穩定的提升趨勢。這種特性使得GAM能夠在計算資源和性能要求之間找到平衡,根據具體應用場景的需要進行調整。更重要的是,這種擴展是智能的,系統會根據問題的實際需要自動決定是否需要更多計算,避免不必要的資源浪費。
七、全面的實驗驗證與性能表現
為了驗證GAM的有效性,研究團隊進行了全面的實驗評估。他們選擇了多個具有代表性的基準測試,涵蓋了從記憶保持能力到長文本理解等多個方面。
在LoCoMo基準測試中,GAM在所有類型的記憶任務上都顯著超越了現有方法。這個測試專門評估AI系統在長期對話中保持和回憶資訊的能力,類似於測試一個秘書是否能記住並準確回答關於過往會議的各種問題。GAM在單跳問題、多跳推理、時間推理和開放域問答等所有子任務上都表現出色。
在HotpotQA多跳問答任務中,GAM展現了處理複雜推理的強大能力。這個任務要求系統從多個文檔中收集資訊片段,然後進行邏輯推理得出答案。GAM在56K、224K和448K三種不同長度的文本設置下都保持了穩定的高性能,證明了其在處理大規模資訊時的魯棒性。
RULER長文本理解基準測試進一步驗證了GAM在各種複雜任務上的表現。該測試包含檢索、多跳跟蹤、聚合和問答四種不同類型的任務。特別是在多跳跟蹤任務中,GAM達到了超過90%的準確率,而大多數基線方法在這類需要跟蹤變量值變化的複雜任務上表現不佳。
NarrativeQA長篇敘事問答測試則評估了系統理解完整書籍或電影劇本的能力。GAM在這個極具挑戰性的任務上也表現出了明顯優勢,能夠從平均87K字的長文本中準確提取資訊並回答問題。
八、模型規模與性能的關係分析
研究團隊還深入分析了不同規模語言模型對GAM性能的影響。他們發現了一個有趣的現象:記憶者和研究者組件對模型規模的敏感度截然不同。
記憶者組件即使使用較小的模型也能保持良好的性能。這說明記憶摘要的生成是一個相對簡單的任務,類似於寫讀書筆記,不需要特別強大的語言理解能力。即使是0.5B參數的小模型,也能勝任基本的記憶整理工作。
相比之下,研究者組件對模型規模極為敏感。當使用7B以下參數的模型時,整體性能會顯著下降。這反映了深度研究過程的複雜性:規劃搜索策略、理解複雜查詢、整合多源資訊等操作需要強大的推理和語言理解能力。
這一發現對實際應用具有重要意義。在資源受限的環境下,可以採用不對稱的配置方案:使用小模型處理記憶化任務,而將更多計算資源分配給研究者組件。這種靈活的配置策略使得GAM能夠在不同的應用場景下找到性能和效率的最佳平衡點。
九、系統效率與實用性考量
除了性能優勢外,GAM在實用性方面也表現出色。研究團隊對系統的時間效率進行了詳細分析,結果顯示GAM的總體運行時間與現有主流方法相當,但提供了顯著更好的答案質量。
在離線記憶構建階段,GAM的時間複雜度與輸入文本長度呈線性關係,這意味著處理更長文本時的時間增長是可預測和可控的。在線服務階段的響應時間相對穩定,不會因為歷史記憶規模的增長而顯著增加。這種特性使得GAM特別適合需要處理大量歷史資訊的長期運行應用。
研究團隊還分析了不同輸出格式對性能的影響。他們發現,除了提供整合後的答案外,如果同時提供支持答案的原始頁面資訊,性能會進一步提升。這說明保留資訊溯源能力的重要性,用戶不僅能得到答案,還能了解答案的來源和依據。
十、技術細節的深度剖析
GAM的成功不僅來自於整體架構的創新,也體現在許多精心設計的技術細節上。研究團隊進行了全面的消融實驗來驗證各個組件的重要性。
在搜索工具的選擇上,實驗結果證明了多工具組合的必要性。單獨使用任何一種搜索工具都無法達到最佳效果,而三種工具的組合使用能夠實現最全面的資訊覆蓋。特別是BM25關鍵詞搜索在整體效果中占據重要地位,這提醒我們精確匹配在資訊檢索中仍然不可替代。
研究團隊還驗證了記憶者和研究者兩個組件缺一不可。當只使用研究者進行搜索而沒有記憶指導時,性能明顯下降;而僅依靠預構建記憶而不進行動態研究時,性能下降更為嚴重。這證明了GAM雙組件設計的合理性和必要性。
在輸出格式的選擇上,研究發現提供資訊來源對提升可信度和實用性具有重要價值。用戶不僅能得到答案,還能追溯資訊的具體來源,這在需要驗證答案準確性的場景中特別重要。
GAM的這項研究為AI記憶系統開闢了新的發展方向。說到底,傳統的壓縮式記憶就像是把圖書館變成了一個小冊子,雖然便於攜帶,但丟失了太多寶貴資訊。GAM則保留了完整的圖書館,同時配備了最優秀的圖書管理員,能夠根據每個讀者的具體需求提供精準的資訊服務。
這種即時編譯的記憶模式不僅解決了資訊丟失的問題,還具備了傳統方法無法企及的靈活性和適應性。更重要的是,GAM能夠充分利用現代大語言模型的強大能力,在測試時動態擴展計算資源,實現性能的持續提升。
對於普通人而言,GAM的突破意味著未來的AI助手將擁有更加可靠和全面的記憶能力。無論是個人知識管理、企業資訊檢索,還是科研文獻分析,這種新型記憶系統都能提供更準確、更完整的資訊支持。
當然,GAM目前還是一個研究原型,要真正應用到日常生活中還需要進一步的工程化和優化。但這項研究為我們展示了AI記憶系統的未來發展方向,也為實現真正通用的人工智慧奠定了重要基礎。有興趣深入了解技術細節的讀者可以通過arXiv:2511.18423v1查閱完整的研究論文,獲取更多實驗數據和實現細節。
Q&A
Q1:GAM記憶系統和傳統AI記憶系統有什麼根本區別?
A:傳統AI記憶系統採用"提前編譯"模式,像壓縮文件一樣預先處理所有資訊,會不可避免地丟失細節。GAM採用"即時編譯"模式,保存完整歷史資訊,根據具體需求動態檢索和整合相關內容,避免了資訊丟失問題。
Q2:GAM的雙智能體架構是如何工作的?
A:GAM包含記憶者和研究者兩個組件。記憶者負責為歷史資訊創建簡潔摘要並保存完整內容到頁面庫中,研究者則根據用戶請求進行規劃、搜索、反思的疊代過程,從頁面庫中檢索和整合相關資訊,類似於圖書管理員和研究助理的分工合作。
Q3:使用GAM記憶系統需要什麼樣的技術條件?
A:GAM需要大語言模型作為基礎,其中研究者組件對模型規模要求較高(建議14B參數以上),而記憶者組件對模型要求相對較低。系統還需要向量搜索、關鍵詞檢索等基礎技術支持,但整體技術門檻在可接受範圍內。






