深大與復旦聯手打造的AI助手，憑什麼用更少的「記憶力」干更多的活？

這項由深圳安泊泰科技與復旦大學聯合組建的優勢AI智能體實驗室（A3 Lab）推出的研究成果，於2026年4月以預印本形式發布，論文編號為arXiv:2604.17091v1，感興趣的讀者可以通過這個編號在arXiv平台查找原文。

贊助商廣告

每次跟AI助手聊天，你有沒有注意到一件奇怪的事情：對話越長，它好像反而越來越糊塗？它可能忘了你在開頭說過的限制條件，把前面已經完成的步驟重新來一遍，或者在一堆雜亂的資訊里找不到最關鍵的那句話。這種現象並不是你的錯覺，而是當前AI系統面臨的一個深層困境。研究團隊把它稱為"上下文爆炸"——隨著對話不斷延伸，AI需要處理的資訊越來越多，真正有用的內容卻被淹沒在一堆無關緊要的廢話里，最終導致判斷能力的急劇下滑。

深圳安泊泰科技與復旦大學的研究團隊提出了一套名為GenericAgent（簡稱GA）的全新AI智能體系統，試圖從根本上解決這個問題。他們的核心主張用一句話來概括：AI的表現好不好，不取決於它能記住多少資訊，而取決於它在有限的"記憶空間"里裝了多少真正有價值的東西。這個原則被稱為"上下文資訊密度最大化"，聽起來有些學術，但背後的道理其實和整理書包一模一樣：一個容量有限的書包，放進去的東西越精準有用，你能解決的問題就越多；反過來，如果把各種可能用到、可能用不到的雜物全都塞進去，反而什麼都找不著。

GA系統通過四個相互配合的設計實現這個原則：一套極度精簡的工具集，一套像圖書館一樣分層管理資訊的記憶系統，一套讓AI在完成任務後自動提煉經驗的"自我進化"機制，以及一套主動壓縮和清理無用資訊的上下文管理層。這四樣東西組合在一起，讓GA在多項真實任務測試中，以明顯更低的資源消耗超越了包括Claude Code、OpenClaw在內的多個主流AI智能體系統。

一、裝滿書包的正確方式：為什麼"記得更多"反而更糟

贊助商廣告

要理解GA解決的問題，得先弄清楚現有AI系統為什麼會在長對話中失靈。

每個AI大語言模型都有一個"上下文窗口"，可以粗略理解為它在一次對話中能同時"看到"和處理的資訊總量。理論上，上下文窗口越大，AI能考慮的資訊越多，應該表現越好。但研究團隊引用的多項獨立研究表明，實際情況恰恰相反。

第一個問題叫做"位置偏差"。大語言模型在處理很長的內容時，對放在中間位置的資訊有天然的忽視傾向——就像你讀一本厚書，開頭和結尾往往印象深刻，中間章節經常記不住。當對話越來越長，越來越多的關鍵資訊被埋到了"中間位置"，AI的實際理解質量就開始打折。

第二個問題更直覺上難以接受：無關內容不僅占據空間，還會主動干擾判斷。這不是說"我沒注意到那段無用資訊"那麼簡單，而是那段無用資訊會像噪音一樣，讓模型在需要做決策時注意力分散，產生錯誤的關聯和判斷。

第三個問題是"有效上下文窗口"比名義上小得多。一個號稱支持100萬token（資訊單位）的模型，實際上能可靠處理的資訊量可能只有這個數字的十分之一左右。研究團隊把這個上限稱為"無幻覺上下文長度"——超過這個範圍，模型就開始編造它沒有真正理解的內容。

這三個問題疊加在一起，形成了一個惡性循環：對話越長，中間位置資訊越多，無關內容越多，有效處理能力越弱，模型越需要靠猜測和編造來填補空白，錯誤越多，用戶越傾向於提供更多澄清資訊，上下文進一步膨脹。

研究團隊提出，解決這個問題的正確框架不是無限擴大容器，而是精準控制放進容器里的內容。他們把這個設計挑戰定義為"完整性"與"簡潔性"之間的張力：完整性要求所有當前決策需要的資訊都明確存在於上下文中，簡潔性要求不相關和冗餘的資訊必須被清除出去。這兩者之間的衝突是結構性的，不只是資源限制造成的——即使有無限大的上下文窗口，放進越多不相關內容，模型的注意力就越被分散，決策質量就越差。在此基礎上還有第三個維度叫"自然性"，指資訊表達要符合模型能夠可靠理解的形式，過度壓縮或者使用奇怪的編碼反而可能讓模型誤解。但研究團隊明確指出，自然性是次要約束，完整性和簡潔性才是核心矛盾。

贊助商廣告

GA系統的全部設計都圍繞這對核心矛盾展開，目標是在每個階段都儘可能把真正重要的內容留下來，把無關緊要的內容擋在門外。

二、精兵簡政：九件工具打天下

在很多現有的AI智能體系統中，給AI提供的工具越多，看起來能力越強。Claude Code內置了53個不同功能的工具，OpenClaw有18個工具工廠且運行時還可以動態加載插件。GA的工具集呢？只有9個。

這不是無奈之舉，而是經過深思熟慮的選擇，原因有兩個層面。

從"書包"的角度看，每增加一個工具，就等於在AI每次思考之前都要先讀一遍這個工具的說明書。工具越多，說明書越厚，光是讀說明書就消耗了大量可用的"記憶空間"，留給真正要處理的任務的空間就越少。更糟糕的是，工具越多，AI在每次決策時需要從更大的選項池裡挑選，選錯的概率就越高，返工和重試的次數就越多。

從能力覆蓋的角度看，GA的九個工具涵蓋了五大類基礎能力，通過組合就能完成幾乎所有任務。文件讀取、精確編輯和整塊寫入負責處理本地文件系統；代碼執行工具可以運行Python或Bash腳本，這意味著幾乎任何可以用程序實現的操作都在它的射程之內；網頁掃描和JavaScript執行覆蓋了瀏覽器交互；短期記憶更新和長期記憶提煉管理著資訊的保存與沉澱；如果AI實在無法自主完成某件事，還有一個工具專門用來向用戶發起詢問。

研究團隊強調了一個核心邏輯：理論上，僅靠代碼執行這一個工具，AI就能模擬其餘所有工具的功能——它可以寫一段腳本來讀取文件、寫一段腳本來打開瀏覽器、寫一段腳本來調用任何API。但是，每次都從零寫腳本代價太高。其他八個工具的存在，不是為了擴展能力邊界，而是為了降低常見操作的認知和執行成本，讓AI在處理文件、瀏覽網頁這類高頻任務時不必每次都"重新發明輪子"。

在實際測試中，研究團隊發現一個頗為有趣的現象：工具豐富的Claude Code和OpenClaw，實際運行中使用頻率最高的也只是少數幾個工具。以Claude Code為例，AgentTool一個工具就占了所有調用次數的一半以上，WebFetchTool占22%，FileReadTool占11%，其餘五十個工具分攤剩餘不到20%。換句話說，大量低頻工具全程占著上下文的位置，卻幾乎從不被用到。GA的設計直接把這個長尾切掉了。

贊助商廣告

實驗結果支持了這個判斷：在五項長程複雜任務的測試中，GA完成率100%，與Claude Code持平，同時所用總token數只有Claude Code的35%、OpenClaw的30%，調用模型次數從32次降到11次，工具調用次數從22次降到13次。

三、圖書館式的記憶：只有需要的書才擺上桌面

工具精簡解決了任務開始之前的資訊冗餘，但任務執行過程中還有另一個問題：過去的交互記錄、中間狀態和執行歷史會不斷積累，越來越多地占據"記憶空間"，最終把當前最需要關注的資訊擠出視野。

GA的解決方案是一套四層的分級記憶架構，可以用圖書館來理解它的運作方式。

最頂層是"桌面"——始終擺在面前、隨時可見的資訊。GA刻意讓這個桌面保持極度簡潔，只放一張簡短的"記憶目錄卡"，告訴AI現在的記憶庫里有哪些類別的資訊、每類在哪裡找。這張目錄卡非常小，但足夠用，因為AI本身就能充當解碼器：只要知道某類知識的存在，它就能通過工具調用去把那類知識取出來。

第二層是"常用書架"，放著經過驗證的穩定事實。只有經過實際執行檢驗、被證明在多個任務中都有用的資訊才能進入這裡，臨時性的狀態、一次性事件和未經驗證的猜測會被嚴格排除在外。

第三層是"操作手冊庫"，放著可復用的流程知識：某類任務怎麼做、前提條件是什麼、常見的失敗模式是什麼、出錯了怎麼恢復。

第四層是"檔案室"，保存歷史執行記錄，不用於日常調用，但在需要回溯過去某次操作時可以翻閱。

這套架構的關鍵設計原則是"按需取用"：AI在任何時刻只把當前任務真正需要的資訊帶入"桌面"，其餘內容留在相應層級安靜地待著，既不占用注意力，也隨時可以被找到。當AI完成某項工作後，有價值的發現會經過篩選進入第二或第三層，而不是原樣堆進檔案室。

實際測試驗證了這個設計的效果。研究團隊比較了四種不同的記憶配置：不使用任何外部記憶、把完整的操作規程原文注入上下文、在原文基礎上再加入背景描述和定義等冗餘資訊、只保留核心決策規則的精簡記憶。測試在一個危險品分類任務上進行，結果非常清晰：精簡記憶配置用了165個token，完成率與冗餘記憶配置（288個token）完全相同，兩者都顯著優於完整原文注入（575個token），而完整原文注入又顯著優於不用記憶（完成率差距約14個百分點）。換句話說，記憶內容越精準，同樣的"桌面空間"能創造的價值越高；反過來，把大量背景描述和解釋性文字塞進上下文，不僅浪費空間，還會干擾模型找到真正決策需要的規則。

贊助商廣告

在防止記憶無限膨脹方面，GA的"目錄卡"設計發揮了關鍵作用。每新增一類知識，目錄卡只新增這類知識的存在標記，不添加實質內容。隨著知識庫越來越豐富，目錄卡的總量會接近一個自然的上限——因為知識類別是有限的，而AI憑藉對類別存在的感知就足以準確導航到更深層的內容。測試結果顯示：安裝了20項技能後的滿負荷狀態下，GA的提示詞總長只有2298個token，而Claude Code是22821個，CodeX是23932個，OpenClaw是43321個。GA實現了同等能力下約十倍的上下文效率優勢。

在另一項長期事實記憶的測試中，GA在多跳推理、時序理解、開放域問答和單跳問答四個維度上均超過了專門使用向量資料庫和嵌入模型進行檢索的Mem0和A-MEM系統。這說明準確的資訊組織本身就能成為檢索效率的替代，不一定非得依賴額外的檢索基礎設施。

四、經驗變技能：AI如何從每次任務中真正學到東西

以上三個設計解決了單次任務內的資訊質量問題，但還有一個更大的浪費沒有被處理：每次任務結束後，AI辛苦積累的經驗就消散了，下一次面對類似任務，得從零開始重新探索。

GA的自我進化機制試圖打破這個循環，讓每次成功的執行經驗變成下次的起點。

這套機制的核心思路是把"歷史做過什麼"轉化為"下次該怎麼做"。AI在執行任務時產生的原始記錄保存在第四層檔案室，但這些原始記錄不會被直接調用。只有經過明確的提煉步驟，驗證某段經驗確實有效且可復用，才會生成結構化的操作流程文檔進入第三層，最終可能進一步被提煉為可執行的代碼腳本。

研究團隊將這個演進過程劃分為三個階段，用一個九輪連續實驗來展示它的全貌。任務是調查GitHub上LangChain項目最近合併的五個問題修復記錄，包括找到每個修改涉及的模組、關聯的原始問題單、以及檢查官方文檔中有沒有對應的故障排查說明，最後輸出結構化的JSON報告。

贊助商廣告

第一輪是探索狀態：AI對整個任務流程完全陌生，需要在執行中一邊試錯一邊摸索。這一輪耗時7分30秒，調用了32次大語言模型，消耗了22萬個token。

第二輪到第五輪，AI開始把第一輪的經驗提煉成文字版的操作流程文檔，並在後續執行中隨著遇到新情況不斷修正這份文檔。這個階段的消耗從第二輪的6.6萬token持續下降到第五輪的3.6萬token，運行時間從4分19秒壓縮到2分50秒。

第六輪開始，文字流程文檔進一步被固化成Python腳本。有了可直接運行的腳本，AI不再需要每次理解自然語言指令、翻譯成操作步驟，而是直接執行代碼。從這一輪起，消耗穩定在約2.3萬token、5次模型調用、1分35到1分41秒之間，進入了一個高度穩定的低成本區間。

與第一輪相比，最終狀態的資源消耗壓縮了約90%。更值得關注的細節是：消耗的減少主要不是因為每次回復變短了，而是因為需要調用模型的次數從32次減少到5次——整整消除了27輪"理解-推理-生成"的循環。研究團隊把這個過程描述為把探索性的路徑搜索轉化成了有保證的路徑壓縮：一旦最優路徑被驗證並儲存，後續執行就不再需要重新搜索，直接沿著已知的最優路徑走。

這個效果在八類不同的網頁任務上得到了複製。研究團隊對比了GA和OpenClaw在三次重複執行中的token消耗變化。GA在所有八類任務上都呈現出明顯的收斂趨勢：第一次執行成本高，第二次顯著下降，第三次與第二次接近，穩定在低水平。整體節約幅度在61%到92%之間，平均79%。OpenClaw則沒有任何收斂趨勢，在某些任務上第二次、第三次的消耗甚至比第一次更高，說明它在重複面對相同任務時同樣是從零開始探索。

研究團隊還觀察到一個規律：任務越複雜、越依賴多步推理和錯誤恢復，自我進化帶來的節約越大。對於需要跨頁面狀態傳遞和複雜路徑搜索的任務，節約幅度可以達到92%；相對簡單的任務節約幅度也有約60%以上。

贊助商廣告

五、資訊壓縮的四道防線：當上下文實在裝不下時怎麼辦

即使有了精簡工具集和分級記憶，長時間運行的任務還是會產生越來越多的對話歷史。GA對此設計了一套四級的主動壓縮機制，在不同粒度上控制資訊的增長。

最細粒度的是工具輸出截斷：每個工具在返回結果時，如果內容超過預設長度，就只保留頭部和尾部，中間用省略號替代。代碼執行結果上限1萬字符，網頁文本掃描上限1萬字符，完整HTML處理上限3.5萬字符，文件讀取上限約2萬字符。這確保了單條資訊不會因為偶爾出現超長輸出而撐爆當前可用空間。

第二道防線針對歷史消息里的冗餘內容。每隔約五輪對話，系統會掃描較早的消息，把重複出現的工作記憶塊（比如多次出現的狀態快照）替換成短占位符，把推理過程和工具調用記錄截斷到約800字符的窗口——因為只有最新的那份才有參考價值，老版本的詳細內容可以被壓縮。最近10條消息不參與這個壓縮，以保證AI對當前正在發生的事情有完整認知。有意思的是，這種定期壓縮還帶來了一個副作用：被壓縮的舊消息內容不變，在大語言模型的提示詞緩存機制下會產生約80%的緩存命中率，進一步降低實際計費的token數量。

第三道防線是整體消息驅逐。當所有歷史消息的總字符數超過預設預算時，系統先用更嚴格的規則再次運行壓縮（這次只豁免最近4條消息），然後按時間順序從最舊的消息開始刪除，直到總量降到預算的60%以下，留出充裕的空間給接下來的對話輪次。被驅逐的消息並不是永久消失——它們作為原始記錄保存在第四層檔案室，只是不再出現在活躍的對話窗口裡。

第四道防線是工作記憶錨點：每次工具調用完成後，系統自動在下一條用戶消息里附加一段摘要，包含最近20輪的單行摘要（每行約100字符）、當前輪次編號，以及AI自己通過記憶更新工具維護的關鍵狀態資訊。這段摘要會隨著舊消息被驅逐變成唯一的長期狀態來源，確保核心任務資訊在再長的執行過程中也不會消失。

贊助商廣告

六、智能逛網：當AI瀏覽器遇上資訊密度問題

網頁是資訊密度問題最為嚴峻的場景之一。一個真實網頁的HTML源代碼，可能有百分之九十以上是導航欄、廣告、隱藏元素、CSS樣式、JavaScript代碼和各種不可見標籤，對任務真正有用的內容可能只有幾百個字。如果把整個網頁的原始代碼塞進AI的上下文，代價極高，且大量無用資訊會顯著干擾判斷。

GA的網頁處理工具採用了一種分析算法：它在內部複製頁面的DOM（文檔對象模型，可以理解為網頁的結構骨架），逐元素計算可見性，通過覆蓋分析和區域劃分把頁面切分為主內容區和非必要區域，然後剔除被覆蓋的、隱藏的元素，最後只序列化真正對用戶可見的主內容部分。這個處理過程能把典型網頁的上下文消耗降低一個數量級。此外，每次網頁操作（如點擊按鈕、填寫表單）執行後，工具會同時返回操作結果和頁面變化情況，讓AI在許多場景下不需要再做一次完整的頁面掃描，進一步減少資訊攝入量。

在網頁任務的綜合測試中，GA在WebCanvas基礎交互測試中得分0.834，OpenClaw為0.722；在需要多步搜索和鏈式推理的中文網路搜索測試中，GA得分0.600，OpenClaw只有0.200；在22項真實網頁任務的自定義測試中，GA得分0.577，OpenClaw為0.500。與此同時，GA在這三個測試中的平均token消耗分別是0.18M、0.47M和0.26M，OpenClaw對應的數字是0.71M、1.31M和0.76M。三倍左右的token差距，換來的是更高的準確率，這個結果與研究團隊"更少的上下文、更高的資訊密度、更好的結果"的核心主張高度一致。

七、小小代碼庫，大大可能性：極簡架構帶來的湧現能力

GA系統本身只有約3300行代碼，核心的智能體循環只有92行。相比之下，OpenClaw的代碼庫約53萬行，是GA的160倍。這種代碼規模上的極簡不是限制，而是刻意為之的設計選擇，並且帶來了幾個在更複雜系統中反而難以實現的能力。

贊助商廣告

由於GA以命令行程序的形式運行，任何可以執行命令行的環境都可以調用它。這意味著，一個父級GA實例在遇到需要並行處理的複雜子任務時，只需通過代碼執行工具啟動多個子級GA進程，就自然獲得了多智能體協作能力。每個子進程有獨立的對話歷史和記憶空間，互不干擾，完成後父進程匯總結果，形成一個簡潔的"分發-匯總"工作流。這不是特意設計的多智能體框架，而是命令行程序可組合性的自然延伸。

同樣的道理，GA還支持"監聽模式"：一個外部腳本周期性檢查某個條件（比如某個文件夾里出現了新文件，或者某個錯誤日誌有了新內容），條件滿足時自動向GA發送任務指令。這讓GA可以在沒有用戶主動干預的情況下持續工作，相當於一個隨時待命的自動化助手。定時任務也是同樣的機制——外部腳本按照時間規則觸發任務，GA負責執行，兩者之間的分工極為清晰。

更有意思的是，極簡代碼庫還為未來的"自我升級"打開了可能性。研究團隊指出，如果一個AI系統的代碼庫有幾十萬行，AI本身根本無法理解自己的實現，也無從修改。但當核心代碼只有幾千行時，AI完全可以讀懂它，甚至在適當授權下修改它。這意味著GA的進化潛力不僅限於技能的積累，理論上還可以延伸到對自身架構的改進——這是研究團隊留給未來探索的開放問題。

說到底，GA這項研究提出的不只是一個新系統，而是一種看待AI智能體的新視角。當前行業的主流思路是"給AI提供更多工具、更大記憶、更長上下文"，隱含的假設是"更多資源等於更強能力"。GA用實驗結果表明，這個假設在長程任務中是錯的——超過某個臨界點之後，更多的資訊不僅不幫忙，還會主動拖後腿。

研究團隊還總結了一個反直覺的發現：在長程任務中，一個AI智能體消耗的token越少，往往意味著它管理上下文的能力越強、任務完成質量越高，而不是相反。token消耗高，更可能是上下文管理失敗的症狀——模型用額外的交互輪次來彌補每一步決策質量的下滑，而不是因為它在做更多有價值的工作。

贊助商廣告

這個觀察對於任何在工作或生活中使用AI助手的人都有一定的參考意義。當你發現一個AI工具在處理複雜長任務時越來越混亂，原因很可能不是模型能力不足，而是系統沒有做好資訊過濾，讓無關內容擠占了真正重要的位置。GA提出的解法——精簡接口、分級記憶、經驗提煉、主動壓縮——是一套可以被借鑑和延伸的工程思路。對於想要深入了解這套思路的讀者，可以在arXiv上通過編號2604.17091找到完整的研究論文，研究團隊也在GitHub上以lsdefine/GenericAgent公開了全部代碼。

Q&A

Q1：GenericAgent的"上下文資訊密度最大化"是什麼意思？

A：簡單說，就是在AI能處理的有限資訊空間裡，儘量只放真正有用的內容，把無關緊要的資訊擋在外面。研究發現，AI處理的資訊越多，不一定越聰明——超過某個臨界點，多餘的資訊反而會干擾判斷、降低準確率。GenericAgent的所有設計都圍繞這個原則：精簡工具減少說明書占用的空間，分級記憶讓不常用的知識按需取用而非全部擺在面前，壓縮機制主動清理無用歷史，讓"有效資訊"的比例始終保持在高水平。

Q2：GenericAgent的自我進化機制具體是怎麼工作的？

A：GA在完成一項任務後，會對執行過程進行回顧，把其中被驗證有效的操作流程提煉成結構化的文字說明，存入"操作手冊層"。隨著同類任務反覆執行，這些文字說明會進一步被轉化為可直接運行的Python腳本。下一次遇到類似任務時，AI不需要重新探索，直接調用已有的腳本，極大減少了模型推理的輪次。實驗表明，經過多輪疊代後，同一類任務的資源消耗可以降低約90%，且這種改進會持續積累，不會因為關閉程序而重置。

Q3：GenericAgent只有9個工具，為什麼不會能力不足？

A：9個工具涵蓋了文件讀寫、代碼執行、網頁交互、記憶管理和用戶詢問五大基礎能力。核心邏輯是"組合優於枚舉"：複雜操作不需要一個專用工具，而是通過幾個基礎工具的組合來實現。比如網路搜索，GA用"執行瀏覽器操作"加"讀取頁面內容"就能完成，不需要單獨的搜索工具。研究團隊還發現，工具豐富的系統（如53個工具的Claude Code），實際執行時真正高頻使用的也只有少數幾個，其餘工具全程占著上下文空間卻幾乎不被調用，GA的設計直接省去了這些無效開銷。

贊助商廣告