馬里蘭大學巴爾的摩分校揭開AI記憶黑洞：當智能助手開始「說謊給自己聽」

這項由美國馬里蘭大學巴爾的摩分校電腦科學系完成的研究，以預印本形式於2026年5月31日公開發布，論文編號為arXiv:2605.29463v2。感興趣的讀者可通過該編號在arXiv平台查閱完整論文。

贊助商廣告

**一個讓人細思恐極的AI怪象**

假設你雇了一位私人助理，每次交給他任務之前，你都把任務寫清楚貼在他桌上。可這位助理有個奇怪的毛病——他會在第一次看任務時寫一張"備忘錄"給自己，然後從第二次起，他完全不看你貼的任務說明，只反覆翻看自己那張寫錯了的備忘錄，越做越偏，越錯越深，而且還非常自信。

這不是笑話，而是研究團隊在當前主流AI智能體身上發現的一種真實現象。這種現象被他們命名為"記憶虛構"（memory confabulation）——AI給自己寫了一份錯誤的任務理解，然後把它存進記憶，反覆調用，越陷越深，哪怕每次任務開始時系統都把正確說明擺在它面前，它依然視而不見。

**一、被寄予厚望的"反思學習"機制，到底是怎麼運轉的**

要理解這個問題，得先聊聊一個叫做Reflexion的AI學習框架。這個框架由研究者於2023年提出，代表了當前AI智能體學習方式的一種重要嘗試。

傳統的機器學習，就像訓練一隻狗做動作：做對了給獎勵，做錯了扣分，反覆千萬次，模型才能學會。但Reflexion走了一條完全不同的路——它不修改模型本身，而是讓AI在每次失敗後，用自然語言給自己寫一段"反思日記"，然後把這段日記保存起來，下次做任務時就翻出來看，作為經驗指導。

這個思路聽起來非常聰明，有點像人類的經驗積累：摔了一跤，總結教訓，下次繞開那塊石頭。正因如此，Reflexion在代碼生成測試中交出了相當亮眼的成績，比沒有反思機制的GPT-4還要高出一截，達到了91%的通過率。

然而，馬里蘭大學的研究團隊卻在這個看似完善的機制中發現了一個深藏的隱患：AI的"反思日記"本身可能從一開始就寫錯了。

贊助商廣告

**二、記憶虛構：比一次性謊言更危險的持續性自欺**

研究團隊要區分清楚兩個經常被混淆的概念——"幻覺"（hallucination）和"記憶虛構"（memory confabulation）。

AI幻覺是大家相對熟悉的概念：模型在某次對話中胡編了一個不存在的事實，比如編造一個虛假引用或者捏造一段歷史。這是一次性的錯誤，對話結束就結束了。

記憶虛構則危險得多。它不是一次性的錯誤，而是一個會自我循環、自我加固的過程：AI在失敗後寫下錯誤的反思，把這段錯誤存入記憶，下次任務時調出這段錯誤記憶指導行動，再次失敗後又根據這段錯誤基礎寫出新的錯誤反思，然後再存入……周而復始，就像一個人在日記里把謠言越寫越像真事，最終連自己都信了。

更關鍵的是，在研究團隊使用的ALFWorld這個家庭任務模擬環境裡，每次任務重新開始時，系統都會把正確的任務說明重新展示給AI。也就是說，正確資訊明明就在眼前，AI卻依然選擇相信自己那份錯誤的記憶。這就是研究者所說的"即便面對相反的任務證據，依然持續行動"。

**三、用一把數字尺子量出"記憶凍結"**

為了把這個模糊的問題變成可以量化、可以比較的科學指標，研究團隊發明了一個叫做"反思重複率"（Reflection Repetition Rate，簡稱RRR）的測量工具。

它的測量邏輯其實非常直覺化：拿AI在某個任務上寫的所有反思日記，互相比較相似程度。如果後面寫的反思和前面寫的幾乎一模一樣（相似度超過85%），那就意味著AI沒有從失敗中學到任何新東西，只是在原地打轉——就像一個學生每次考砸後都寫同一篇檢討書，換湯不換藥。

RRR數值在0到1之間。0意味著每次反思都有全新內容，說明AI在真正學習進步；1意味著所有反思都是同一段話的翻版，說明記憶完全"凍結"了。研究團隊把RRR達到0.5及以上的情況定義為"凍結記憶環境"，也就是記憶系統已經陷入無法自我更新的僵局。

贊助商廣告

這把尺子的效力立竿見影。研究團隊用它分析了Reflexion在ALFWorld中的134個任務日誌，發現在需要至少一次反思的50個環境裡，有16個（占32%）出現了記憶凍結。凍結的環境平均需要7.6次嘗試才能解決，而反思多樣、記憶健康的環境平均只需1.5次。更值得關注的是，RRR數值與任務解決所需嘗試次數之間的相關係數高達0.808，也就是說這兩者高度同步——記憶越凍結，任務越難完成。

**四、最觸目驚心的案例：AI整整14次都在做一道別的題**

抽象的數字背後，是一些令人瞠目的具體故事。

研究團隊深挖了那16個"凍結環境"的記錄，發現一個極端案例：任務編號env_22，正確任務是"把一個冷卻過的馬克杯放進咖啡機"。AI在第一次嘗試失敗後，寫下了一段涉及"番茄"和"微波爐"的錯誤反思——那是完全不同的另一個任務的內容。然後，它在接下來的14次嘗試里，全程圍繞著番茄和微波爐打轉，一次都沒有提到馬克杯或咖啡機，哪怕每次任務重置時正確說明都清清楚楚寫在那裡。

研究團隊把這種現象稱為"完整任務替換型虛構"——AI不只是記錯了某個細節，而是從根本上給自己構造了一個假任務，然後以驚人的執著堅守這個假任務直到終局。

另一個案例env_35（任務：用檯燈檢查馬克杯）則展示了兩種虛構模式疊加的複雜情形。首先是"位置虛構"——AI按照某個先前環境裡記下的搜索路線去找物品，結果當然找不到，因為這根本是另一個場景；其次是"動作虛構"——AI的記憶里錯誤地錨定了某件物品的位置，於是直接嘗試操作那件物品，卻根本沒有走過去，就像你以為鑰匙在桌上，伸手去抓，結果什麼都沒摸到。

研究團隊進一步梳理出兩類基本虛構模式：一類是"完整任務替換"，目標物品和目的地同時被錯誤替換；另一類是"僅目標物替換"，目的地記對了，但要操作的物品認錯了。這種分類讓問題的輪廓愈加清晰。

贊助商廣告

**五、跨領域驗證：這不是ALFWorld的特殊問題**

為了確認這個發現不只是一個特定測試平台上的偶發現象，研究團隊把同樣的分析方法搬到了另外三個完全不同類型的任務領域，而且全部基於已有的公開日誌，不需要額外跑實驗或消耗API費用。

在網購模擬環境WebShop里，情況更為嚴峻——82%的任務環境出現了記憶凍結，平均RRR高達0.83。這裡的虛構模式有些不同：AI的反思日記會描述"我點錯了商品"，卻從不分析究竟是哪個顏色、尺寸還是價格限制導致了點錯。描述了症狀，卻找不到病因，記憶里只是重複地記錄失敗本身，而非失敗的原因。

多跳問答任務HotpotQA的表現從另一個維度揭示了問題的根源。這個任務需要AI回答需要多步推理才能得出答案的複雜問題，系統給出的反饋只是"對"或"錯"，沒有任何細節。結果是46%的問題在七次嘗試後仍然答錯，每次從錯到對的修正率僅有5.9%。相比之下，ALFWorld是64%，WebShop是83%。原因在於：當你只知道答案是錯的，卻不知道是哪一步推理出了差錯，你根本無從下手修正，反思就變成了無頭蒼蠅。

而代碼生成測試HumanEval的表現則形成了鮮明對比——記憶凍結率只有17%，幾乎是ALFWorld和WebShop的零頭。這裡的反饋不是簡單的通過或不通過，而是精確到具體的測試用例：哪個輸入導致了錯誤，錯誤是什麼類型，報錯資訊是什麼。有了這種精細的反饋，AI的反思就能有的放矢，找到真正的失敗節點，記憶系統也就得以真正進化。

這個對比強有力地支持了研究團隊提出的"反饋粒度假說"：反饋資訊越粗粒度，AI的記憶越容易凍結；反饋越精細具體，AI就越能進行有效的自我修正。

**六、釜底抽薪：去掉記憶反而解決了問題**

數據上的相關性固然有說服力，但相關不等於因果。凍結記憶的環境會不會本來就是更難的任務，和記憶本身沒有關係？

研究團隊設計了一個直接的實驗來回答這個問題：把所有16個凍結環境重新跑一遍，但這次每次嘗試前都把記憶完全清空，讓AI每次都像第一次一樣完全從零開始。

贊助商廣告

結果非常清晰。16個凍結環境分裂成了兩類截然不同的情形。

第一類是"記憶有害型"，共2個環境（env_31和env_97），任務類型是"用光源檢查物品"。清空記憶之後，AI在第1次嘗試就解決了問題。而在帶著錯誤記憶的標準Reflexion模式下，分別耗費了7次和8次嘗試。這說明記憶本身就是造成失敗的直接原因——刪掉它，問題就消失了。

第二類是"任務本身很難型"，共14個環境，涵蓋拿起並加熱、拿起並冷卻、拿起並清潔等操作類型。清空記憶之後，AI在10次嘗試內仍然無法完成任務。這說明這些任務的失敗不是記憶質量的問題，而是AI本身的執行能力尚有欠缺，記憶虛構只是在已經存在的能力短板上又疊加了一層誤導。

這兩類的發現共同描繪出一幅完整的圖景：記憶虛構在某些情況下是直接致命的元兇，在另一些情況下則是雪上加霜的幫凶。無論哪種，它的存在都是有害無益的。

**七、兩種修復思路的較量：結構化反思 vs 程序化提取**

既然找到了問題，下一步自然是修復。研究團隊測試了兩種不同的解決思路，並對所有16個凍結環境進行了完整測試。

第一種思路叫做"結構化反思"。研究團隊改寫了AI寫反思日記的提示，強制要求AI必須按三段格式來寫：第一段必須引用一個具體的失敗動作和環境的回應；第二段用一句話解釋那個動作為什麼失敗；第三段寫出新的具體計劃，必須點名涉及的真實物品。這就像強制學生寫檢討時必須引用考卷原題，不允許抽象地說"我沒認真審題"，必須說"第三題我把加法算成了乘法"。這種方法在"記憶有害型"的兩個環境裡完美奏效，使它們和清空記憶一樣，都在第1次就解決了。然而對於"任務本身很難型"的14個環境，它沒有帶來任何改善。

第二種思路叫做"程序化反饋提取"，靈感來自HumanEval比HotpotQA和ALFWorld表現好得多這一發現。研究團隊意識到，HumanEval之所以記憶凍結率低，是因為單元測試提供了精確的失敗資訊——而不是因為代碼任務本身更容易。那麼，能否把這種精確反饋的邏輯搬到ALFWorld里來？

贊助商廣告

他們的做法是：不再讓AI自己去猜"我為什麼失敗"，而是用程序直接掃描AI的行動軌跡，找出兩類具體失敗：一類是收到"什麼都沒發生"回應的動作，一類是完全相同的動作被重複執行多次的情形（這意味著陷入了死循環）。把這些具體失敗證據直接塞進反思提示，讓AI基於真實失敗資訊來寫反思，而不是憑空猜測。

效果立竿見影。在正確目標物品提及率上，標準Reflexion是令人震驚的0%——121條反思里沒有一條提到正確的任務物品；而程序化提取把這個數字推到了86%（156條反思里134條提到了正確物品）。平均RRR也從0.64驟降到0.10，記憶凍結幾乎被消除。最重要的是，程序化提取共解決了3個環境，包括了其他所有方法都無法解決的env_35。

env_35的案例值得單獨展開。在標準Reflexion、清空記憶和結構化反思這三種方式下，這個環境都宣告失敗。但程序化提取卻在第4次嘗試時解決了它。回看軌跡，前兩次嘗試里AI的行動被一個從某個先前任務繼承下來的"位置執念"所控制，它固執地按照記憶里的路線去找檯燈。程序化提取的介入把那個具體的"什麼都沒發生"的失敗動作暴露在反思面前，讓AI意識到那條路根本走不通，進而在第4次嘗試里找到了另一盞檯燈，用33步完成了任務。

**八、更強的模型換了個方式繼續"虛構"**

一個自然的問題是：這些問題是不是只在比較弱的模型（gpt-3.5-turbo）上才有？換一個更強的模型是否就能解決？

研究團隊用gpt-4o-mini在全部16個凍結環境上重跑了標準Reflexion實驗，結果讓人大開眼界。

gpt-4o-mini確實修復了"任務身份虛構"的問題——它寫的142條反思全部正確提到了目標物品，對比gpt-3.5-turbo的0%，這是一個巨大的進步。然而，它只解決了2個環境，和清空記憶的基準結果完全一樣。這證明了一個重要結論：能不能正確記住任務目標，和能不能實際完成任務，是完全獨立的兩個維度。更強的模型修復了"記錯任務"的問題，卻修復不了"執行能力不足"的問題。

贊助商廣告

更耐人尋味的是，gpt-4o-mini還引入了兩種全新的虛構類型，在gpt-3.5-turbo身上從未出現過。一種是"格式虛構"：gpt-4o-mini會把反思寫成漂亮的編號結構（"1. 明確任務要求……2. 驗證指令語法……"），這些格式化的分析文字隨後滲透到了行動生成里，導致AI把計劃語言當成執行指令輸出，收到"什麼都沒發生"的回應，循環9次之多。另一種是"動作空間虛構"：當使用程序化提取對gpt-4o-mini進行測試時，它會生成自然語言式的動作（"檢查書架1上是否有書"）而非ALFWorld要求的規範語法（"去書架1"），結果被環境拒絕，在無效指令里打轉47步。

這個發現揭示出一個更深層的道理：更強的模型並非消除了結構性的記憶脆弱性，而是將它表現在不同的維度上。老問題修了，新問題來了。

**九、這個毛病不只是Reflexion才有**

研究團隊特別強調，記憶虛構並非Reflexion獨有的缺陷，而是一種架構層面的結構性風險，任何同時滿足三個條件的AI系統都面臨相同隱患：接收的反饋只有粗粒度的成敗信號、讓AI自己用自然語言來寫反思、把這些反思持久化保存並在未來檢索調用。

在這個框架下，另一個知名AI智能體框架ExpeL面臨的風險甚至更大。ExpeL不是給單個任務存反思，而是從失敗軌跡中提煉出全局規則，再把這些規則應用到所有未來任務上。如果這個提煉過程本身產生了虛構——而這完全可能發生，因為它用的是同樣的無約束LLM去分析同樣的二元失敗信號——那麼一條被錯誤"附議"了兩次的虛構規則就會被牢牢固化，並在此後的每一個任務里都造成誤導。單個任務的虛構變成了系統級的傳播污染。

**十、程序化提取在代碼任務里也行得通**

除了ALFWorld，研究團隊也把程序化提取的思路平移到了代碼生成任務HumanEval上，以驗證這個方法的跨領域泛化能力。

平移的方式很直覺：ALFWorld里提取的是"什麼都沒發生"的動作；HumanEval里提取的是具體的失敗斷言語句（比如"assert candidate(1000) == '1'"失敗了）以及錯誤類型和報錯資訊。把這些精確的失敗證據注入反思提示，讓AI基於具體事實來寫反思，而不是對著整段代碼猜哪裡出了問題。

贊助商廣告

在4個被識別為凍結記憶的HumanEval問題上，程序化提取將反思里對具體錯誤類型的提及率從接近零推到了100%（18條反思全部有效），平均RRR也從0.59降至0.44。結果上，4個問題里2個解決，2個仍未解決——和ALFWorld的情形如出一轍。無法解決的那兩個（HumanEval/32和HumanEval/84）需要真正的算法理解，比如二分搜索邊界更新邏輯或者二進制位數字求和，這些超出了記憶干預所能觸及的範圍。

有一個小插曲值得一提：HumanEval/77在標準Reflexion下是可以解決的，但加了程序化提取之後反而失敗了。結構化的反思提示打亂了原本有效的解題策略，這提醒我們，記憶層面的干預並非總是有益，有時候反而會干擾本來運作良好的機制。這和ALFWorld里"記憶有害型"與"任務本身很難型"的區分有著相似的道理。

**說到底，這告訴了我們什麼**

歸根結底，這項研究揭示的是一個關於AI系統記憶機制的根本性隱患：寫進記憶的東西，和寫得正不正確，是兩個完全獨立的問題，而當下的主流框架幾乎全部把注意力放在了"如何更好地調用記憶"上，卻忽視了一個更基礎的問題——怎麼保證寫入記憶的內容是真實可靠的？

這個道理延伸到人類身上其實也不陌生。我們都有過這樣的經歷：某件事的第一印象定下了以後所有的理解，哪怕後來有了新的證據，也總是傾向於用那個第一印象去解釋一切，越解釋越牢固。AI在這一點上並不比人類更理性，它只是把這個過程執行得更快、更徹底、更沒有反思空間。

研究團隊的最終建議是：任何設計AI記憶系統的人，都需要把"寫入路徑的驗證"放在和"檢索質量優化"同等重要的位置。一個存滿了自信但錯誤信念的記憶系統，在它影響到的那些任務上，比完全沒有記憶更有害。讓AI知道什麼時候不該寫、或者在寫之前驗證因果準確性，是未來智能體設計不可迴避的挑戰。

對於讀者來說，這也許是一個值得細想的問題：當我們把越來越多的重要決策交給AI助手，並且這些助手會"學習"和"積累經驗"時，我們怎麼知道它們積累的是真正有效的經驗，而不是一本越寫越離譜的錯誤日記？有興趣深入了解研究細節的讀者，可以通過論文編號arXiv:2605.29463v2查閱完整原文。

贊助商廣告

---

Q&A

Q1：什麼是記憶虛構（memory confabulation），它和AI幻覺有什麼區別？

A：記憶虛構是指AI在失敗後寫下錯誤的反思並存入記憶，之後每次任務都調用這段錯誤記憶來指導行動，形成自我強化的錯誤循環。AI幻覺是單次對話里生成錯誤資訊，說完就結束了；而記憶虛構是持續的，錯誤被儲存、被調用、被反覆強化，影響此後所有嘗試，即使任務說明每次都重新給出正確內容也無濟於事。

Q2：Reflexion框架的記憶凍結問題該如何解決？

A：研究團隊測試了兩種方法。結構化反思要求AI必須引用具體失敗動作再寫計劃，能解決簡單的記憶有害型問題。程序化反饋提取效果更全面，它不讓AI自己猜失敗原因，而是直接從行動軌跡里掃描出具體失敗步驟（如收到"什麼都沒發生"的動作），注入反思提示，將目標物品提及率從0%提升至86%，平均記憶凍結指標RRR從0.64降至0.10。

Q3：換用更強的AI模型能解決記憶虛構問題嗎？

A：不能完全解決。研究團隊用gpt-4o-mini測試後發現，更強的模型確實修復了"記錯任務目標"的問題，反思里能100%正確提到目標物品，但解決的環境數量和直接清空記憶的結果一樣，僅有2個。更強的模型還引入了新的虛構類型，比如把反思格式文字輸出成行動指令、使用非規範語法等。這表明更強的模型改變了虛構的表現形式，而非消除了結構性的根本漏洞。