宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

清華大學等團隊如何讓AI智能體擁有「記憶力」,從而真正學會自主探索未知世界?

2026年06月05日 首頁 » 熱門科技

這項由清華大學、中山大學、百度、同濟大學和北京大學聯合開展的研究,於2026年6月發表在arXiv預印本平台,論文編號為arXiv:2606.01528v1。感興趣的讀者可通過該編號在arXiv上查閱完整論文。

你有沒有觀察過一個小孩第一次進入遊樂場的樣子?他會先四處張望,然後跑向最顯眼的滑梯,玩了幾次之後,開始嘗試旁邊的鞦韆,再後來發現角落裡藏著一個沙坑……他始終記得自己玩過什麼,所以能不斷向新的地方邁進。整個過程既不需要父母告訴他該玩什麼,也不需要任何獎勵,只是單純地被"還沒見過的東西"吸引著。

現在把這個小孩替換成一個AI智能體,把遊樂場替換成一款從未被測試過的手機應用或網頁——問題就來了。當前絕大多數AI智能體在這種"自由探索"的場景下表現得像一個失憶的孩子:它可能一遍又一遍地點同一個按鈕,完全不知道自己剛才已經做過同樣的事情,更無從判斷哪些地方還沒有被觸碰過。這不是因為模型本身不夠聰明,而是因為它缺乏一種關鍵能力——**記憶**。

正是為了解決這個根本性的問題,來自清華大學、中山大學、百度、同濟大學和北京大學的研究團隊提出了一個全新的框架,名為JAMEL(聯合智能體記憶與探索學習,Joint Agent Memory and Exploration Learning)。這個框架的核心思想可以用一句話概括:讓記憶和探索彼此"餵養"對方,形成一個持續進化的良性循環。

---

一、為什麼AI智能體總是原地打轉?

要理解JAMEL解決的問題,先要搞清楚AI智能體在探索任務中究竟卡在了哪裡。

在大多數實際應用場景中,AI智能體扮演的是一個"操作員"的角色:它打開一個網頁或應用,觀察當前螢幕上的內容,然後決定下一步做什麼——點擊哪裡、填寫什麼內容、滑動到哪個方向。這個過程持續幾十步乃至幾百步。麻煩在於,環境是"部分可觀測"的,也就是說,智能體每一步只能看到當前螢幕,無法直接看到整個應用的全貌。

這就相當於你被蒙著眼睛逛一座迷宮,只有在某個位置時,眼罩才短暫掀開讓你看一眼周圍。在這種情況下,你能否走出迷宮,很大程度上取決於你還記不記得自己去過哪些地方。

現有的AI智能體通常有兩種應對方式。第一種是"全記":把過去所有的操作歷史完整地塞進輸入框,讓模型每次決策時都能看到完整記錄。這種方法確實有效,但代價極高。隨著探索步驟的增加,歷史記錄越來越長,處理這些文字(或截圖)所消耗的計算資源呈爆炸式增長。商業閉源大模型(如谷歌的Gemini)勉強能承受這種開銷,但對於普通研究者或在設備上本地運行的小模型來說,幾乎是不可能完成的任務。

第二種方式是"裁剪":只保留最近幾步的歷史,或者把舊歷史壓縮成一段文字摘要。這樣計算成本降下來了,但隨之而來的是資訊損失。一旦關鍵的歷史記錄被刪掉,智能體就開始重複走過的路,探索深度大幅下降。

問題的本質是:**如何在不消耗大量計算資源的前提下,讓智能體始終知道自己去過哪裡?**

---

二、記憶與探索:一對相互依賴的搭檔

研究團隊發現,記憶和探索之間存在一種深刻的互依關係,而這正是JAMEL框架的理論基礎。

有了記憶,智能體才能判斷哪些行為已經被嘗試過、哪些地方還值得一探;而探索本身,恰恰又能為記憶的訓練提供最自然的"教材"。

打個比方:你是一位第一次到訪某個城市的旅行者,手邊有一本空白的旅行日記(記憶模組)。每當你去了一個新地點,日記里就多了一條記錄。當你下次出門規劃路線時,你會翻看日記,避開已經去過的地方,專門尋找還沒打卡的角落。旅途越深入,日記越充實,你的決策也越精準。而如果日記根本不起作用(因為你看不懂自己的筆記),你就會一次次重複走同一條街。

在這個框架里,關鍵的洞察是:**當智能體因為做出了新穎的探索行為而獲得獎勵時,這個獎勵信號就同時告訴了記憶模組"什麼資訊是有用的"**。不需要人工標註每一步的記憶應該寫什麼,探索過程本身就在自動生成訓練素材。

這種"自給自足"的學習方式還會天然形成一個由易到難的學習曲線。在探索初期,隨便點幾下都能觸發新功能,獎勵信號密集;隨著應用的淺層功能被逐漸覆蓋,要獲得獎勵就必須進行更複雜的多步操作,模型被迫學習更深層的探索策略。這就像遊戲的難度設計:前期關卡簡單,幫你建立基礎操作感;後期關卡複雜,逼著你掌握高級技巧。整個過程無需任何人為設計,完全自然湧現。

---

三、JAMEL的構造:一個精巧的"壓縮+決策"雙引擎

理解了設計思路,現在來看JAMEL的具體技術架構是如何實現這一切的。

整個系統由兩個核心模組組成,它們協同工作,共同完成"記憶歷史、決策下一步"的任務。

第一個模組是**歷史壓縮器**。它的工作原理可以用"拍快照"來理解。每當智能體完成一步操作(比如點擊了某個按鈕),壓縮器就把這一步的螢幕畫面和執行的動作打包在一起,"消化"成一個極其緊湊的向量——研究團隊把它稱為"記憶令牌"(memory token)。這就像把一頁完整的日記壓縮成一個小圖標,圖標本身雖然看起來很小,但包含了這一頁的核心要義。整個歷史就由一串這樣的小圖標組成,數量等於已經走過的步數。

承擔這項壓縮工作的是一個凍結參數的視覺語言模型(研究中使用的是阿里巴巴的Qwen3-VL-2B),"凍結"意味著它的參數在訓練過程中保持不變,只起到資訊提取的作用,不被更新。

第二個模組是**決策策略模型**。它接收當前螢幕畫面,同時還接收來自壓縮器的那一串歷史記憶圖標,將二者合併後輸出下一步的操作指令。在技術實現上,那些記憶令牌被一個可學習的線性變換投影到決策模型的"語言空間",然後拼接在當前觀測的前面,作為"軟前綴"輸入。決策模型本身基於Qwen2.5-VL-7B,兩者合計約9B(90億)參數,因此整個系統被稱為JAMEL-9B。

這個設計的精妙之處在於**極致的壓縮比**。無論歷史有多長——哪怕已經走了四十九步——送入決策模型的歷史資訊永遠只是四十九個緊湊向量,而不是幾十張截圖加上幾千字的操作記錄。計算成本因此被壓縮到一個極低的固定倍數,而不是隨歷史長度爆炸性增長。

---

四、新奇度信號:用代碼覆蓋率來量化"是否真的發現了新東西"

有了架構,還需要一種可靠的方式告訴模型"這一步有沒有做出真正的新發現"。這就是所謂的"新奇度獎勵"。

在一般的強化學習場景中,這類獎勵很難定義,因為"什麼叫新"本身就是個模糊的概念。研究團隊選擇的應用場景——網頁應用探索——恰好提供了一個天然精準的度量標準:**代碼覆蓋率**。

任何一款網頁應用在底層都是由JavaScript代碼驅動的。每當用戶(或智能體)觸發某個操作,應用的某些代碼路徑就會被執行。通過一種叫做"代碼插樁"的技術,可以精確記錄哪些代碼行、哪些分支、哪些函數被執行過。一旦某段代碼被執行過,它就永遠被標記為"已覆蓋",即使下次再觸發同樣的操作也不會重複計分。

研究團隊將覆蓋的代碼行數、分支數、語句數和函數數加總,形成一個累積得分C(t)。智能體每完成一步,如果這一步讓累積得分增加了(也就是觸發了之前從未執行過的代碼),就獲得獎勵值1;否則獎勵為0。這個機制天然滿足"持久性"要求:一個地方探索過一次之後,無論重複多少次,都不再有獎勵,徹底杜絕了"在原地打轉刷分"的可能。

尤其值得一提的是,這套獎勵機制完全不需要人工標註。只要把應用部署到一個帶有覆蓋率監測工具的瀏覽器環境(研究中使用了V8 JavaScript引擎和Istanbul覆蓋率報告器),就能全自動地產生訓練信號。這大幅降低了數據收集的成本。

---

五、訓練數據是怎麼來的?從自動收集到精挑細選

理解了獎勵機制,再來看數據收集流程,會發現整個過程設計得相當精巧。

研究團隊首先把一個通用大語言模型部署到瀏覽器環境中,讓它自由探索各個網頁應用。每一步,這個"採集模型"都會產生一段推理過程和一個具體操作,同時系統記錄下這一步是否觸發了新的代碼覆蓋。

探索是以"會話—場次"的方式組織的:一次完整會話包含多個探索場次,每個場次從應用首頁出發,最多走N步,然後瀏覽器重置。不同場次之間,代碼覆蓋的基準線是共享且累積的,也就是說,越到後面的場次,已經被覆蓋的代碼越多,產生獎勵的難度越高,形成那個自然的課程梯度。

數據篩選階段,研究團隊只保留每個場次中"最後一個產生正獎勵的步驟及其之前的所有步驟"。這樣做的邏輯是:一個最終觸發了新發現的軌跡,其中每一步都值得被學習;而從頭到尾沒有任何新發現的場次則被直接丟棄。通過這種"回溯接受"的過濾機制,每一條保留下來的訓練樣本都屬於真正有效的探索軌跡。

最終,團隊在ScaleWoB基準測試平台的86個網頁應用上,收集了2.4萬條訓練樣本,涵蓋電商、社交媒體、影片、旅遊物流、辦公協作等多個類別。

---

六、實驗:JAMEL在陌生應用上究竟表現如何?

所有工作的最終檢驗,是在從未見過的應用上進行測試。研究團隊把96個應用分成86個訓練集和10個測試集,JAMEL完全在訓練集上學習,然後直接到測試集上"上崗"。每次評估給智能體50步的預算,看它能觸發多少新的代碼路徑。

對比的基準線覆蓋了兩類系統。雲端閉源模型方面,研究團隊把谷歌的Gemini 3.1 Flash-Lite配合ReAct框架(一種讓模型邊推理邊行動的方法)來運行,分為純文字版(ReAct-text)和附帶截圖版(ReAct-vision)。這兩種方式都保留了完整的歷史記錄,是計算資源消耗最高的基準線。本地開源模型方面,對比了MAI-UI(基於阿里Qwen3-VL的8B參數GUI智能體,內置設備端/雲端路由機制)和Mobile-Agent-v3.5(基於GUI-Owl-1.5的8B參數框架,使用滑動窗口壓縮歷史並配備Notetaker摘要模組)。

結果相當令人印象深刻。在50步的會話中,ReAct-text平均積累19.9分的覆蓋獎勵,ReAct-vision達到20.9分,而MAI-UI只有8.4分,Mobile-Agent-v3.5更低,只有5.9分。JAMEL-9B的得分是20.7分,以大約9B的總參數量、完全開源的模型,不僅將其他小模型甩出一大截,還幾乎追平了使用完整歷史的大型閉源商業模型。

從獎勵隨時間增長的曲線來看,差異更加直觀。MAI-UI和Mobile-Agent-v3.5在大約20步之後明顯開始停滯,曲線趨於平緩;而JAMEL的曲線始終保持穩定向上的趨勢,一直延伸到第50步,走勢與兩個ReAct基準線高度重合。研究團隊認為,本地小模型的停滯源於它們的歷史壓縮策略不可避免地丟棄了關鍵資訊,導致智能體在後期逐漸"忘記"自己去過哪裡,又開始重複舊路;而JAMEL通過緊湊但不丟失的潛在記憶,始終保留著完整的歷史資訊,所以沒有這個問題。

---

七、算力消耗:JAMEL有多"省"?

探索深度可以媲美大型閉源模型,計算成本又如何?

研究團隊統計了在10個測試應用、每應用50步(合計500步)的評估過程中,各方法消耗的輸入token總數。ReAct-text累計消耗約1890萬token,ReAct-vision更高達約2326萬token。MAI-UI約298萬token,Mobile-Agent-v3.5約293萬token。JAMEL只消耗了約106萬token。

換算成倍數關係:MAI-UI和Mobile-Agent-v3.5消耗的token量約為JAMEL的2.81倍和2.76倍,而兩個ReAct基準線則分別是JAMEL的17.85倍和21.92倍。也就是說,JAMEL用不到ReAct-vision二十二分之一的計算開銷,取得了幾乎相同的探索成績。每一步平均只需處理約2122個token,遠低於其他所有方案。

這個效率差距在實際部署中意味著顯著的成本節約,也意味著JAMEL這樣的系統未來完全可能運行在算力受限的邊緣設備上,而不必每次都依賴昂貴的雲端服務。

---

八、不同應用,不同探索故事

除了整體數字,研究團隊還詳細分析了每個測試應用上的具體探索軌跡,展現出非常有趣的多樣性。

在結構層次深的商業和旅遊平台上,比如唯品會、Expedia和Temu,JAMEL的獎勵曲線從頭到尾保持持續攀升,體現出它在複雜多層界面中逐步深入的能力。阿里巴巴和淘寶這兩個超大型電商平台則呈現出另一種模式:曲線中間出現了幾次陡升,這說明智能體在某個時刻成功"越過"了一個界面模組的邊界,突然進入了全新的功能區域,一次性觸發了大量新代碼——這是它真正擺脫了局部探索陷阱的證據。

媒體和生活方式類應用如優酷和Keep的情況則有所不同。在這些應用中,所有方法的曲線都在大約20步後趨於平緩。研究團隊認為這不是模型的問題,而是這類應用本身可交互功能有限,本來就沒有那麼多新代碼路徑可以觸發。所有方法都較早達到了"探索天花板"。

拼多多是JAMEL遇到挑戰最明顯的案例。這款應用以極度密集的彈窗和浮層著稱,智能體經常試圖點擊背景中看起來可以操作的元素,卻發現它們被前景彈窗遮住了,操作無效,陷入一段時間的"原地徘徊"。這說明當界面設計非常複雜、彈窗疊彈窗時,僅靠壓縮歷史中的視覺和交互資訊,仍然難以完全應對這種干擾。

---

九、這項研究的未來在哪裡?

研究團隊在論文中專門討論了JAMEL框架的兩個最值得期待的發展方向。

第一個方向是探索的擴展規律。目前JAMEL通過監督微調(模仿優質探索軌跡)來學習,下一步可以引入強化學習,直接以新奇度獎勵作為優化目標。加之新奇度獎勵內置了由易到難的課程,從淺層探索到深層多步探索的過渡是自然發生的,這讓強化學習訓練比通常情況下更加穩定。此外,隨著模型參數規模增大、訓練數據增多、探索步數加深,整個系統的能力上限如何變化,仍是一個待解的開放性問題。

第二個方向被研究團隊稱為"先探索,後執行"範式。在很多實際場景中,用戶希望AI幫助完成特定任務,比如"幫我在這款應用里找到設置語言的地方"。但完成任務的前提是對應用的功能布局有所了解。JAMEL的探索過程恰好能積累這種"結構性記憶"——它探索過的應用在記憶模組裡留下了關於應用功能分布的隱式知識。如果這份記憶能夠被後續的任務執行階段復用,智能體就能在面對具體指令時更快找到目標,而不必從零開始摸索。這將構成一種"自主積累經驗、按需調取應用"的智能體自進化框架,大幅減少對人工標註數據的依賴。

---

說到底,JAMEL做的事情並不複雜:它讓AI智能體終於擁有了一種可以隨著時間積累、不會隨著歷史增長而爆炸、又能在訓練中自動被優化的記憶方式。它的核心貢獻是證明了一件原本不太顯然的事——探索和記憶不需要被當作兩個獨立的問題來解決,當你把它們放在一起,讓探索的結果去訓練記憶,讓記憶去指導探索,整個系統就會自發地越來越聰明。

這對普通人意味著什麼?短期內,這類技術可能讓AI助手在使用一款新應用時,不再需要有人逐步教它怎麼操作,而是能自己摸索出應用的功能分布,然後在你提出具體需求時精準地幫你完成。長遠來看,"自主探索陌生環境、積累經驗、按需調取"的能力,是通向真正自適應AI智能體的重要一步。

有興趣進一步了解這項研究的讀者,可以通過arXiv編號2606.01528查閱完整論文,代碼和模型也已在GitHub的MobileLLM/JAMEL倉庫開源,可以直接下載試用。

---

Q&A

Q1:JAMEL框架中的"潛在記憶令牌"和普通的文字摘要記憶有什麼本質區別?

A:普通文字摘要是把歷史操作壓縮成人能讀懂的句子,可以人為檢查和修改,但生成和理解摘要本身也要消耗計算資源,而且摘要質量依賴提示詞設計。JAMEL的潛在記憶令牌則是一個數學向量,沒有可讀的語義,每步歷史都被壓縮成固定大小的向量,無論歷史多長,送入決策模型的記憶始終是等量的向量序列,計算開銷不隨歷史增長而爆炸,且整個向量的"內容"是通過探索獎勵信號端到端自動學出來的,不需要人為設計壓縮規則。

Q2:代碼覆蓋率作為新奇度獎勵,只適用於網頁應用嗎?其他場景能用嗎?

A:代碼覆蓋率本質上是網頁應用特有的便利條件。論文也指出,在其他環境中可以用類似邏輯的替代信號:比如在機器人導航場景中,可以用"發現新地點"或"遇到從未見過的物體"來充當新奇度信號;在文本遊戲中,可以用"進入從未訪問過的遊戲狀態"來衡量。核心要求是信號必須具有持久性——一旦某個狀態被探索過,下次再次訪問時不能重新計分,否則智能體會反覆刷分而不是真正探索新領域。

Q3:JAMEL訓練好之後,能直接用在從未見過的手機原生應用上嗎?

A:目前JAMEL的實驗是在網頁應用環境下進行的,使用的是基於瀏覽器的操作接口(BrowserGym)。對於原生手機應用,操作接口和觀測形式有所不同,需要對應的適配工作。但研究團隊在論文中提出的"先探索後執行"範式與手機應用場景高度吻合,後續很可能會有針對手機應用的擴展版本。從技術原理上看,只要能定義適合手機應用的持久性新奇度信號(如觸達新界面、發現新功能入口),整個訓練框架是可以遷移的。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新