西北大學等五所高校聯手：讓AI遊戲機器人像人類一樣"記住"技能，而不是靠翻筆記本

這項由西北大學、東北大學、華南理工大學、香港浸會大學及北京師範大學-香港浸會大學聯合國際學院聯合完成的研究，於2026年5月以預印本形式發布，論文編號為arXiv:2605.27762，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

**研究概要：一個記性越來越好的AI玩家**

假設你的朋友剛開始學打遊戲，每次遇到同樣的關卡都要重新翻攻略本，找到上次的筆記，然後按圖索驥地操作。時間一長，光是翻筆記本就要花掉大半的反應時間，而且筆記本越堆越厚，翻起來也越來越慢。現在再假設這個朋友玩了一段時間後，那些常用的操作已經"刻進了肌肉記憶"——他不需要翻筆記了，手就自然地做出正確動作。這兩種狀態的差距，正是這篇論文想要解決的核心問題。

研究團隊在沙盒遊戲《Minecraft》（Minecraft）這個虛擬環境裡，讓AI學習如何完成各種複雜任務，比如收集材料、打怪、製作工具。現有的大多數AI系統依賴的是第一種方式——每次做決定之前，都要把以往的經驗記錄翻出來塞進腦子裡，然後再想怎麼辦。這種方式有明顯的代價：既慢，又費資源，而且隨著經驗越積越多，代價也越來越大。

為了解決這個問題，研究團隊提出了一個叫做PEAM（參數化具身智能西北大學等五所高校聯手讓AI遊戲機器人像人類一樣記住技能而不是靠翻筆記本體記憶，Parametric Embodied Agent Memory）的框架。它的核心思路是：讓AI通過反覆經歷，把有價值的技能真正"寫入"自己的神經網路參數裡，變成像肌肉記憶一樣的東西，而不是永遠存在外部筆記本里靠檢索使用。

---

**一、為什麼"翻筆記本"的方式撐不住長遠**

要理解這個研究的價值，得先弄清楚現有AI的記憶方式為什麼是個麻煩。

現在主流的AI遊戲智能體，記憶的工作方式大概是這樣的：AI有一個外部的"技能庫"或者"經驗日誌"，每次需要完成任務時，系統就在這個庫里搜索相關記錄，然後把找到的內容塞進當前的"工作記憶"（也就是輸入給AI的提示詞），AI再根據這些資訊做出決定。這種方式有個專業名稱叫"檢索增強生成"（RAG），在很多領域都很流行。

贊助商廣告

麻煩在哪裡？每次做決定都要經歷一個完整的搜索-讀取-注入流程。技能庫越大，搜索越費時；注入的內容越多，處理它的計算量越大；而且，任務做完之後，下次再來還是要重複同樣的流程，技能永遠只是"可以查閱的外部文件"，而不是AI自己真正掌握的能力。研究團隊測量了這個代價：使用VOYAGER（一個知名的《Minecraft》AI系統）這類基於檢索的方案，每完成一個任務平均要消耗約31,200個token（可以理解為AI處理資訊的計量單位），每次調用的延遲也在5.5秒左右。

更深層的問題是，AI完成了幾十次"製作石鎬"這個任務之後，如果它的技能仍然只是存在外部庫里，那它本質上並沒有"學會"這件事——它只是有了更多的參考文獻。這就好比一個廚師手邊放著一本食譜，炒了一百次同一道菜，但手藝依然停留在"每次都要看食譜"的階段，從未真正熟練起來。

認知神經科學很早就注意到了類似的問題。人類的大腦有兩套互補的記憶系統：海馬體負責快速記下新鮮事件（就像記筆記），而大腦皮層則負責把反覆出現的規律慢慢整合成長期的知識和技能（就像把筆記內化成本能）。兩者通過"記憶鞏固"這個過程連接——尤其是在睡眠中，海馬體會重放白天的經歷，把穩定有價值的內容"寫入"皮層。研究團隊把這個機制引入了AI設計，並把這種從"外部筆記"到"內化技能"的過程，稱為"參數化鞏固"。

---

**二、PEAM的整體架構：快手藝與慢思考的搭檔**

PEAM的整體設計就像是一個由兩種不同速度的思維模式配合工作的智能體。

慢思考部分由一個大型語言模型（具體實驗中使用的是Azure GPT-4o）承擔。它負責那些需要深思熟慮的事情：分析當前情況、制定計劃、生成可執行的代碼、驗證結果是否正確，以及在任務失敗後進行反思和修正。這部分速度較慢，但處理能力強，適合應對複雜的、以前沒遇到過的新情況。

贊助商廣告

快手藝部分則是一個叫做"多模態混合專家LoRA"（MoE-LoRA）的模組，基於Qwen3-VL-8B-Instruct這個多模態語言模型構建。它負責執行那些已經被內化為技能的操作，反應速度快，不需要每次都重新推理。這就好比一個老廚師，面對熟悉的菜餚時，手已經知道該怎麼做了，根本不需要停下來查食譜。

兩個部分之間有一個"鞏固流水線"，負責把慢思考積累的經驗，按照一定規則，挑選合適的內容，在合適的時機，寫進快手藝模組的神經網路參數裡。整個系統還維護著一個"情節記憶庫"，存放著成功完成任務的軌跡記錄，以及最為關鍵的"失敗-修正"軌跡對——即哪些操作導致了失敗，以及後來是如何修正並成功的。

在實際運行時，系統首先嘗試用快手藝模組處理任務。如果有對應的已學技能，模組就直接生成可執行代碼並運行，完成後驗證結果。一旦驗證通過，任務就算完成；如果快手藝模組沒有合適的技能，或者執行後驗證失敗了，系統就切換到慢思考模組來處理，處理的結果會被記錄下來，作為未來鞏固的候選素材。

---

**三、失敗不是垃圾，而是最寶貴的教材**

這個研究里有一個非常有意思的設計理念：把失敗當作頭等重要的訓練信號，而不是要被遺忘的負面記錄。

大多數AI訓練的邏輯是：收集成功的案例，讓AI模仿成功的行為。失敗的案例頂多被轉化成文字提示，告訴AI"下次別這樣"。PEAM走了一條不同的路：它專門收集"失敗-修正"軌跡對，也就是同一個情境下先失敗、後成功的兩段操作記錄，然後把這兩段記錄放在一起，直接用來訓練神經網路參數。

訓練的方式是一個叫做"行為克隆加直接偏好優化"（BC+DPO）的聯合目標。行為克隆部分（BC）負責讓AI模仿成功軌跡的具體操作，確保生成的代碼格式是正確的、可以被解析執行的。直接偏好優化部分（DPO）則負責讓AI"感受到"修正後的操作比失敗操作更好，把這種偏好關係寫進參數裡。兩者缺一不可。

贊助商廣告

研究團隊在實驗中發現了一個很有說服力的細節：如果只用DPO、去掉BC，訓練出來的適配器在"評分測試"上看起來還不錯，評分差值高達+6.51，表面上似乎學到了偏好。但實際讓它生成可執行的代碼時，12次測試里有0次成功生成了格式正確的代碼。這是因為DPO只教AI分辨"A比B好"，但沒有給AI提供一個具體的"好代碼長什麼樣"的示範。就好比你只告訴一個學生"這篇作文比那篇好"，但從來沒有展示過一篇好作文的具體格式，他也不知道如何下筆。加上BC之後，聯合訓練的評分差值提升到+37.92，12次里12次都能生成格式正確的代碼。

這一發現還有一個實踐層面的啟示：僅僅看前向計算的偏好分數，不足以判斷一個AI是否真的能在實際部署中正常工作。對DPO訓練的AI，同時測試生成路徑的實際可用性，是更可靠的評估方式。

---

**四、怎麼決定哪些經驗值得"刻進骨子裡"**

並不是所有的經驗都值得被內化成參數。如果把每一次嘗試都寫進模型，會造成參數空間的浪費，也可能讓已有的好技能被不穩定的操作覆蓋掉。PEAM為此設計了一個叫做"參數化價值評分"（PV）的篩選機制。

這個評分從四個維度綜合考量一個技能候選是否值得被內化。第一個維度叫"檢索成本節省"，衡量如果把這個技能內化，未來能省下多少翻筆記的功夫——技能越複雜、被用到的頻率越高，內化的價值就越大。第二個維度叫"穩定性"，考察這個技能在不同情境下的成功率是否穩定——一個碰運氣才能成功的操作，內化進去只會帶來不穩定的表現。第三個維度是"冗餘度"，檢查這個技能是否和已經內化的某個技能高度重複——如果是，就沒必要再浪費空間存一個差不多的版本。第四個維度是"干擾風險"，評估內化這個技能是否會影響其他已有的技能——具體實現上，系統會檢查這個技能和已有技能是否屬於同一類別，如果是同類別的，更新時會被路由到同一個專用適配器，屬於可控範圍。

贊助商廣告

這四個維度通過加權求和得出最終分數，權重分別是0.4、0.3、0.2、0.1，通過網格搜索確定。與之對比的是之前一些智能體系統採用的簡單啟發式規則（比如"成功率大於80%且被檢索超過15次才考慮內化"）。實驗表明，完整的PV評分和這個簡單規則對候選技能的排名相關性為-0.375，也就是說兩者的判斷結果有相當大的差異——PV評分會篩選出那些同時具備高頻使用價值和穩定性但尚未被充分利用的技能，而簡單規則則可能漏掉一些價值較高但代碼較長的複雜技能。用完整PV評分替代簡單規則，任務成功率高出了8.7個百分點。

---

**五、怎麼決定什麼時候把技能"存檔"**

篩選出了哪些技能值得內化之後，還有一個問題：什麼時候執行這個內化操作？

最樸素的做法是設一個固定時間表，比如每隔50場遊戲就做一次鞏固。但這有明顯的缺陷：當AI表現很好的時候，定時鞏固是浪費計算資源；當某個技能的失敗率突然變高的時候，等到下一個固定時間點才處理，已經晚了。

PEAM採用的是一種叫做"自觸發鞏固"（STC）的機制，讓AI自己監測自己的狀態來決定何時觸發鞏固。具體方式是：系統持續追蹤每個技能在最近一段窗口內的失敗率，並與該技能的歷史基線失敗率進行統計檢驗對比。當近期失敗率相對於歷史基線出現了統計顯著的上升（用Z統計量判斷，顯著性水平0.05），同時該技能的PV評分處於當前候選集的前50%，就觸發鞏固。

這個機制有一個關鍵特性：它是"無標度的"，也就是說，它的觸發標準不依賴於任何絕對的失敗次數或失敗率數值，而是相對於該技能自身的歷史表現來判斷。這意味著，同樣一套觸發參數（窗口大小10，基線窗口10，顯著性0.05，前50%分位）在"以製作類任務為主"的場景和"以戰鬥類任務為主"的場景里，都能產生合理的觸髮結果，不需要針對不同任務類型重新調參。

贊助商廣告

實驗通過將已有的軌跡數據按類別重新切分來模擬兩種不同分布，驗證了這個特性。在兩種分布下，STC觸發的時間點高度一致（Jaccard相似度0.538），被評選為高價值的候選技能有61%是重疊的。相比之下，用固定失敗率閾值作為觸發條件的對照方案，在兩種分布下觸髮結果差異很大，必須分別調參才能達到可接受的效果。此外，與固定時間表相比，STC能讓系統少跑37%的鞏固周期就達到同等性能，觸發的平均延遲也從23個任務周期縮短到7個。

---

**六、適配器的物理隔離：讓"學新技能"不影響"舊技能"**

機器學習領域有一個頑固的老問題叫做"災難性遺忘"：神經網路在學習新任務的時候，會把舊任務的知識覆蓋掉。就好比你花了很多時間練習打籃球，結果卻忘了怎麼打羽毛球。PEAM通過架構設計從根本上迴避了這個問題。

每一個技能類別（製作、採集、戰鬥）都有自己獨立的LoRA適配器，這些適配器的參數是完全分開的，互不干擾。LoRA是一種參數高效的神經網路微調技術，可以用相對較少的新參數對大模型進行定製化調整，而不需要重新訓練整個模型。在PEAM里，每個類別的適配器約有8300萬個參數，都是獨立儲存的。鞏固製作技能只會更新製作適配器，戰鬥適配器的參數完全不受影響。

實驗對此做了直接驗證：按順序先鞏固製作技能、再鞏固採集技能、再鞏固戰鬥技能，完成全部鞏固後再測試最早學的製作技能，PEAM的留存率是100%，沒有任何遺忘。對照來看，把所有技能共用一個LoRA適配器的方案（Single shared LoRA）遺忘了32.4%；使用彈性權重固化（EWC，一種通過正則化對抗遺忘的方法）的方案遺忘了43.3%；而直接對整個模型做全參數微調（Naive full-FT）的方案，遺忘程度高達78.5%。

這個結果背後的邏輯直接而清晰：當參數本來就不共享的時候，學新技能物理上就不可能覆蓋舊技能。遺忘抵抗不是靠算法上的額外保護機制來實現的，而是從架構設計層面直接消除了遺忘發生的可能性。

贊助商廣告

---

**七、實驗結果：一份詳細的成績單**

研究團隊在《Minecraft》1.19版本里設計了11個長鏈條任務，覆蓋製作、採集、戰鬥三個類別。製作類包括：製作製作台、製作木鎬、製作石鎬、製作熔爐、製作鐵鎬。採集類包括：收集4根橡木原木、開採8塊圓石、開採2塊鐵礦石（含冶煉步驟）、收集4塊煤炭。戰鬥類包括：夜間擊敗殭屍、用弓擊敗骷髏。每個任務用3個不同隨機種子各跑一次，共33次試驗。

PEAM的整體任務成功率是69.7%（33次里成功23次），95%置信區間在53.0%到83.4%之間。相比之下，作為主要對照基準的VOYAGER成功率是54.5%（18/33），差距為+15.2個百分點，配對統計檢驗的p值是0.018，差距在統計上是顯著的。

效率方面的改善更加顯著。PEAM每次調用的中位延遲是3.2秒，而VOYAGER是5.5秒，降低了約42%。每個任務消耗的token數，PEAM是約4600，VOYAGER是約31,200，降低了約85%。這85%的token減少，來自於參數化路徑不再需要每次把技能庫內容塞進提示詞。

研究還對比了另外幾類方案。沒有任何記憶機制、完全依賴實時推理的ReAct方案只有6.1%的成功率，說明記憶對於複雜任務確實至關重要。只記錄反思文本的Reflexion方案達到了27.3%。使用空間-時間記憶的MrSteve方案是33.3%。直接全參數微調的方案是42.4%。共享LoRA方案是48.5%。使用正則化抗遺忘的EWC方案是51.5%。使用多模態檢索的Optimus-1復現版本是60.6%，PEAM比它還高9.1個百分點，說明把經驗內化到參數裡能帶來超過單純豐富檢索內容的收益。

從單任務粒度看，PEAM在11個任務里有10個與VOYAGER持平或更好，明顯改善集中在需要多步製作的複雜任務（石鎬、熔爐、鐵鎬）和需要定位加採集配合的資源類任務（鐵礦石+冶煉、煤炭）。兩種方案都在"弓擊骷髏"這個任務上全部失敗，因為這個任務需要精準的遠程戰鬥時機控制，而這超出了當前JavaScript機器人接口的動作精度。

贊助商廣告

---

**八、一些在研發過程中意外發現的實用規律**

研究團隊還記錄了幾個在開發過程中撞上的問題，這些問題對其他想做類似研究的團隊有參考價值。

關於在消費級硬體上部署這類系統：團隊嘗試在一張12GB顯存的RTX 4070顯卡上運行4-bit量化版本的模型加適配器，結果遇到了三個嚴重問題。第一，每一步的生成延遲高達約2000秒，比在A100伺服器上慢了幾百倍，原因是顯存不夠用，導致大量重複計算。第二，在合併適配器參數時，有一個常用的函數會悄悄地把那些幅度很小的參數更新清零——而BC訓練出來的參數更新恰好整體幅度較小，4-bit量化路徑下約有37%的更新被清零，而16精度路徑下是0%。第三，遊戲AI生成的代碼通常比較長（製作類任務經常超過1500個token），但在消費級硬體上為了控制速度不得不限制最長生成長度，截斷了的代碼被解析器拒絕，拒絕率約84%。這三個問題合在一起，意味著在消費級設備上部署這類系統目前幾乎不可行，需要A100級別的伺服器。

關於失敗-修正對的收集效率：在四個技能類別里，導航類任務完全無法生成可用的訓練對。原因在於，導航任務失敗通常不是因為代碼寫錯了，而是因為目標地形或資源根本不在AI的探索範圍內——這屬於環境限制而非操作失誤，所以沒有"修正後成功"的軌跡。製作和採集類任務的成功配對率約50%，戰鬥類約25%。這說明這種基於失敗-修正對的參數化學習方式，最適合那些失敗原因在於操作層面、可以通過修改代碼來修正的任務。

---

**說到底，記憶該是"爛熟於心"而不是"翻箱倒櫃"**

歸根結底，這個研究做的事情，是在AI系統里建立一條之前缺失的通路：讓積累的經驗真正變成AI自己的能力，而不是永遠堆在身邊的參考材料。

這條通路有三個門衛：價值評分決定哪些經驗值得被內化，自觸發機制決定什麼時候執行內化，獨立適配器的架構決定內化怎麼進行而不傷害已有技能。三個機制各司其職，組合起來讓AI能夠在不斷接觸新任務的過程中，真正地越來越熟練，而不只是越來越有一堆參考文件。

贊助商廣告

當然，目前這套系統還只在《Minecraft》里測過，只覆蓋了三個技能類別，實驗規模也不算大（11個任務，3個種子）。能否遷移到機器人控制、網頁操作等其他領域，還需要進一步驗證。但它提出的核心問題——AI的記憶該怎樣真正轉化為能力——是一個在整個領域都有意義的問題，這項研究給出了一種具體可行的思路。

對這個方向感興趣的讀者，可以通過arXiv:2605.27762查閱完整論文，裡面有完整的算法偽代碼、超參數設置、任務清單和部署細節，方便自行復現和進一步研究。

---

Q&A

Q1：PEAM和VOYAGER這類AI遊戲智能體的主要區別是什麼？

A：VOYAGER等傳統智能體把學到的技能存在外部技能庫里，每次用的時候都要搜索出來塞進提示詞，相當於每次都要翻筆記本。PEAM則通過訓練把常用技能直接寫進神經網路參數裡，相當於練成了肌肉記憶，執行時不需要再查筆記，所以速度快很多，token消耗也少約85%。

Q2：PEAM的"失敗-修正"訓練方式具體是怎麼工作的？

A：系統會收集同一個任務里"先失敗後成功"的兩段操作記錄組成訓練對，用行為克隆（讓AI模仿成功操作的格式）加直接偏好優化（讓AI感受到成功操作比失敗操作更好）聯合訓練。實驗證明，單獨用偏好優化在測試分數上看著不錯，但實際生成可用代碼的成功率是0，加上行為克隆才能達到12/12的代碼可用率。

Q3：PEAM為什麼能避免學了新技能就忘掉舊技能這個問題？

A：PEAM給每個技能類別（製作、採集、戰鬥）分配了獨立的LoRA適配器，參數完全分開儲存。更新製作技能只改製作適配器的參數，戰鬥適配器完全不受影響，物理隔離從根本上消除了遺忘發生的可能。實驗中按順序學完三類技能後，最早學的製作技能留存率100%，而共享參數的方案則遺忘了32%以上。