大模型也需要「睡一覺」？卡內基梅隆大學與馬里蘭大學聯手揭示AI記憶鞏固新機制

這項由卡內基梅隆大學與馬里蘭大學聯合完成的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.26099，有興趣深入了解的讀者可通過該編號查閱完整原文。

贊助商廣告

你有沒有過這樣的體驗：白天學了一大堆新知識，腦子裡亂成一鍋粥，但第二天睡一覺醒來，那些知識反而變得清晰了，思路也順了？這種"睡一覺反而更明白"的神奇現象，其實在生物學上早有研究——大腦在睡眠中會把短期記憶整理、壓縮、歸檔到長期記憶里，這個過程叫做"記憶鞏固"。而這篇論文的核心思想，就是把這套生物機制搬進了大型語言模型（也就是ChatGPT這類AI）里，讓AI也學會"睡一覺"來整理記憶、提升推理能力。

研究團隊面對的核心問題是：當AI需要處理非常長的對話或文檔時，它的"工作記憶"（也就是注意力緩存，可以理解為AI的"短期記憶黑板"）很快就會寫滿。現有的解決方案雖然能讓AI記住更多內容，但記住和"真正理解、能推理"是兩回事——正如你背下了一道數學題的所有條件，卻不一定能算出答案。這項研究發現，問題的根本不在於"記不住"，而在於AI沒有足夠的計算時間去把記住的內容"想清楚"。於是，研究團隊提出了一種全新的機制：讓AI在記憶即將被清空之前，先"睡一覺"——也就是對這段記憶反覆思考幾遍，把關鍵資訊深度整合進自己的"長期記憶權重"里，再繼續處理新內容。

---

一、AI的記憶困境：黑板寫滿了怎麼辦

現代大型語言模型處理資訊的方式，可以用一塊有限大小的黑板來理解。每次AI讀入新的文字，都會把相關資訊寫到這塊黑板上，需要回答問題時再去黑板上查找。這塊黑板就是所謂的"鍵值緩存"（KV Cache），它儲存了AI最近看過的所有內容。問題在於，這塊黑板的空間是有限的，而且隨著內容增多，查找的成本會呈指數級上升——黑板內容翻倍，查找成本就翻四倍。

贊助商廣告

為了解決這個問題，研究人員之前提出了一種折中方案：在AI架構里加入一種叫做"狀態空間模型"（SSM）的組件，可以把它理解成一個小型的"筆記本"。這個筆記本的大小是固定的，不會隨著內容增多而變大。當黑板快滿時，AI可以把一些內容壓縮摘要寫進筆記本，然後把黑板上的舊內容擦掉，騰出空間給新內容。這種"黑板加筆記本"的混合架構，已經被很多大型AI系統採用，包括一些前沿商業模型。

然而，研究團隊發現了一個此前被忽視的問題：筆記本雖然能記住資訊，但記住和"能推理"是兩碼事。舉個具體的例子：假設你的筆記本里記錄了"A認識B，B認識C，C認識D"，現在有人問你"A通過幾個人可以認識D"，你需要在腦子裡把這條鏈條一步一步推導出來。如果這條鏈條很長，一步推導需要的"思考深度"就很深。研究團隊發現，現有的混合架構模型在記憶容量足夠的情況下，隨著所需推理深度的增加，表現會急劇下降。換句話說，不是記不住，而是沒時間想清楚。

---

二、向大腦的睡眠機製取經

人類大腦在睡眠中會經歷"海馬體重激活"的過程——白天學習時，資訊先存在海馬體這個臨時中轉站里，到了夜晚睡覺時，大腦會把這些資訊反覆"回放"，逐漸將其整合進大腦皮層的神經連接中，形成穩固的長期記憶。睡眠期間，人對外界刺激是沒有反應的，這意味著睡眠必須提供足夠大的認知收益，才值得付出這種"暫時失聯"的代價。

研究團隊從這個生物學機制中獲得了直接啟發。他們設計的方案是：當AI的黑板快寫滿時，先不急著擦掉內容，而是讓AI進入一段"睡眠"——在這段時間裡，AI對當前黑板上的內容進行N輪反覆思考和處理，每次處理都會更新它的"筆記本"（SSM快權重），把理解加深一點。就像你睡覺時大腦反覆回放白天的學習內容，每次回放都讓記憶更牢固、理解更深入。等到N輪"睡眠"結束，AI才把黑板上的舊內容擦掉，用更新後的筆記本繼續處理新內容。

贊助商廣告

這個機制的精妙之處在於，它把額外的計算量都放進了"睡眠階段"，而不是"回答問題階段"。對於用戶來說，AI回答問題的速度沒有任何變化，因為所有的深度思考都已經在"睡眠"中完成了。這就好比一個學生在考試前反覆複習（睡眠階段），考試時（回答問題階段）就能快速給出答案，而不需要在考場上臨時翻書。

---

三、技術細節：AI的"睡眠"具體是怎麼工作的

要理解這套機制的技術層面，可以把整個過程分成兩個階段來看：資訊整合階段和預測回答階段，就像學生的"備考"和"應試"。

在資訊整合階段，AI每讀入一批新內容（比如一段長文檔的某個片段），就會把這段內容寫進黑板。當黑板寫滿時，睡眠機制啟動：AI對黑板上的內容進行N次完整的前向計算（可以理解為N輪"複習"），每次複習都會按照一個學到的規則去更新筆記本里的內容。這個更新規則是通過訓練學出來的，不是人為設定的固定公式，因此AI可以學會最適合當前任務的整合方式。完成N輪睡眠之後，黑板被清空，AI帶著更新後的筆記本繼續讀入下一批內容。

在預測回答階段，AI只進行一次標準的前向計算，直接給出答案。此時黑板里只有最近的少量內容，而大量的歷史資訊都已經以壓縮整合的形式存在筆記本里了。關鍵是，這個筆記本里存的不只是原始資訊的摘要，而是經過多輪深度處理後的、能支持複雜推理的表徵。

整個訓練過程是端到端的：AI被要求在經歷"睡眠"之後給出正確答案，因此它的整個計算圖（包括N輪睡眠的過程）都會被用來計算誤差並更新參數。這意味著AI會自動學會如何在睡眠中整合記憶，而不是靠人來告訴它該怎麼做。研究團隊還特別指出，與之前深度循環模型不同的一點是：在睡眠階段產生的中間特徵向量（可以理解為每輪複習時的草稿紙）會被丟棄，只有筆記本里的更新被保留。梯度（驅動學習的信號）是通過筆記本里的變化來反向傳播的，而不是通過草稿紙。

贊助商廣告

---

四、第一個測試：讓AI模擬細胞自動機

為了嚴格測試這套機制是否有效，研究團隊設計了一系列精心控制的合成任務。第一個是"細胞自動機規則110"。

規則110是一種非常簡單的一維二進制細胞自動機——你可以把它想像成一排黑白格子，每一步都按照固定的規則變換顏色。比如今天這排格子是"黑白黑黑白..."，明天按照規則110就會變成另一種排列，後天又變成另一種，以此類推。這個任務的難點在於：它被數學家證明是P完全的，也就是說，沒有任何捷徑可以直接算出第t步的結果，你只能一步一步地模擬。推演步數t越大，需要的計算深度就越深，這正好是測試AI推理能力的理想工具。

實驗設置是這樣的：AI會看到4段相互獨立的長度為24的二進制字符串，代表4個初始狀態。之後，黑板被強制清空（這模擬了實際應用中的記憶限制），AI需要在之後的預測階段回答：每個初始狀態經過t步變換後，第一位是什麼？

當t=0時，這就是一個簡單的記憶題，只需要把看過的內容記住就行。當t越來越大，AI需要在把內容記進筆記本的過程中，就已經把t步的演化計算出來並存好——相當於在"備考"階段就做好了所有推演。

實驗結果非常清晰：沒有睡眠機制的普通混合模型，在t=16之後表現急劇下降，t=32時基本等同於隨機猜測（準確率約10%）。而加入睡眠機制後，2輪睡眠讓準確率提升到約20%，3輪和4輪睡眠則都達到了30%以上。更重要的是，這種改進與記憶容量完全無關——因為所有實驗中需要記憶的資訊量完全相同，變化的只是推理深度t。這直接證明了性能瓶頸在於計算深度而非儲存空間。

---

五、第二個測試：在圖譜中找路

第二個測試任務叫做Depo，是由卡耐基梅隆大學的研究人員此前設計的多跳知識檢索任務。可以把它理解成一個"人際關係網路尋路遊戲"：給你一個打亂順序的有向循環圖（比如"A指向B，F指向L，E指向B..."這樣的邊的列表），然後問你"從節點X出發，走k步能到哪裡？"k越大，需要的推理鏈條就越長。

贊助商廣告

這個任務比細胞自動機更難，原因有兩點。第一，每個循環圖被拆成4個片段分批輸入，AI需要在接收碎片化資訊的過程中把整個圖結構整合進筆記本，而細胞自動機的每個初始狀態可以完整地在一個窗口內處理。第二，AI必須形成一種"查詢無關"的表徵——因為具體問哪個節點、走幾步，是在圖結構全部輸入完之後才告知AI的，所以筆記本里必須存的是整個圖的可用表徵，而不是針對某個特定問題的答案。

實驗結果同樣令人信服。在1跳和2跳的簡單情況下，有沒有睡眠差別不大，模型都能較快學會。但從4跳開始，1輪睡眠的模型基本停滯不前；從8跳開始，2輪睡眠的模型也開始遭遇瓶頸；只有4輪睡眠的模型，才能在訓練預算內開始學會16跳這個最難的情況。這個梯級式的結果非常優雅地展示了：每增加一輪睡眠，就能解鎖更深一層的推理能力，而且這種改進恰恰集中在那些最需要深度推理的困難問題上。

---

六、真實世界驗證：數學推理任務

前兩個任務都是合成設計的，研究團隊進一步在一個更貼近真實應用的基準上驗證了結論：GSM-Infinite。這個基準是仿照著名的小學數學題數據集GSM8K設計的，每道題包含2000到3300個詞，其中大量是"干擾詞"——外觀上和正文很像，但對解題沒有幫助，這使得簡單的檢索方法完全失效。題目的難度由所需算術運算步驟數來控制，從2步到8步不等。

研究團隊在兩個預訓練好的模型上進行了實驗：一個是Jet-Nemotron 2B（一個已經是SSM-注意力混合架構的模型，由Qwen 2.5 1.5B微調而來），另一個是Ouro 1.4B（一個循環深度的純注意力模型，研究團隊為它額外插入了6個Jet層來增加"筆記本"能力）。所有問題的上下文長度超出了AI的活動黑板大小（設為2000詞），因此AI在回答時必須依賴筆記本里的內容。此外，研究團隊特意把問題放在文檔前面而不是後面，這樣AI在讀文檔時就已經知道要找什麼，可以有針對性地進行記憶整合。

贊助商廣告

結果與合成任務高度一致。對於只需2到4步運算的簡單題目，有沒有睡眠差別不大，模型都能達到很高的準確率。但從6步運算開始，睡眠的效果開始顯現：對於Jet-Nemotron，6輪睡眠將6步題的準確率從74.2%提升到81.2%，8步題從35.1%提升到38.8%；對於Ouro，4輪睡眠將6步題的準確率從41.9%大幅提升到61.5%，8步題從21.0%提升到27.2%，提升幅度超過30%。Ouro的提升更明顯，研究團隊推測這可能與它的深度循環預訓練方式有關。

---

七、滑動窗口版本：更靈活的"睡眠策略"

除了"每次清空整塊黑板再睡"的硬清空策略，研究團隊還測試了一種更靈活的方式：滑動窗口清空。每次睡眠結束後，黑板不是完全清空，而是保留最近的一小部分內容，只把最老的內容移出黑板。這就像你睡前複習時，不是把所有東西都塞進長期記憶，而是把最久遠的筆記歸檔，保留最近的筆記在手邊。

這種方式在實際應用中更為常見，因為保留部分近期上下文往往能幫助模型更好地處理局部連貫性。研究團隊用窗口大小512（遠小於總文檔長度2000-3300詞）的設置在GSM-Infinite上測試了Ouro模型。

結果同樣印象深刻。在這個更緊張的上下文窗口下，即使是最簡單的2步題，沒有睡眠機制的基線模型準確率也只有59.6%——因為黑板太小，很多有用資訊根本來不及被充分整合。而加入4輪睡眠後，2步題的準確率躍升至90.5%，提升幅度高達52%。這個發現拓展了睡眠機制的適用範圍：不只是在推理深度很大時有用，當黑板相對於文檔來說很小、資訊檢索壓力大時，睡眠同樣能帶來巨大收益。這意味著，**睡眠機制既能幫AI"想得更深"，也能幫AI"記得更准"。**

---

八、訓練效率：多睡一覺要多少代價

任何機制的價值都要和它的代價一起考量。研究團隊對訓練效率做了詳細分析。

由於每處理完一個窗口就需要睡N輪再處理下一個窗口，窗口之間存在順序依賴，無法像普通Transformer那樣把所有位置完全並行處理。這種"跨窗口的順序性"理論上會降低並行效率。然而，實驗表明，當窗口大小L足夠大時（比如1K、2K、4K），GPU在處理單個窗口內部時已經足夠飽和，跨窗口的順序依賴對實際訓練吞吐量的影響微乎其微。也就是說，只要你每次餵給AI的"一口飯"夠大，來不來得及"咽下去"再餵下一口，對整體速度的影響就很小。

贊助商廣告

另一方面，睡眠輪數N對訓練成本的影響則是線性的：睡2輪大約比睡1輪慢一倍，睡4輪大約慢四倍。這是一個清晰的"投入產出"關係，研究者可以根據任務難度和計算預算靈活選擇N的大小。不過需要注意的是，N輪的深度反向傳播可能帶來訓練不穩定的問題，研究團隊在論文討論部分提到這是現有的局限性之一，可以通過隱式梯度或截斷反向傳播等技術來緩解。

---

歸根結底，這篇論文講了一個很樸素的道理：把東西記住，和真正想明白，是兩件不一樣的事。現有的AI架構在給記憶系統設計了一個"筆記本"之後，就以為萬事大吉，卻忽略了"往筆記本里寫東西"本身也需要認真思考——尤其是當問題需要多步推導時，一遍走馬觀花根本不夠。

研究團隊提出的"睡眠"機制，本質上是在說：在把內容從黑板上擦掉之前，先多看幾遍，讓AI有足夠的時間把這段內容真正消化透。這個想法和人類大腦的工作方式有著出奇一致的邏輯，而實驗結果也證明它確實有效——特別是在那些最難、推理鏈條最長的問題上，效果最為顯著。

對於普通人而言，這項研究的意義在於：未來的AI助手在處理長文檔、複雜推理、多步驟數學題時，可能會更加可靠。同時，它也暗示著一個有趣的方向：與其讓AI在回答你的問題時絞盡腦汁臨場推演，不如讓它在"空閒時間"先把材料預消化好，回答時才能又快又准。這種"把功夫下在平時"的思路，恰恰也是人類學習中最經典的智慧。

如果你對這套機制的技術細節感興趣，歡迎通過arXiv編號2605.26099查閱完整原文，作者來自卡內基梅隆大學與馬里蘭大學，裡面有詳細的數學推導和實驗設置供深入研讀。

---

Q&A

Q1：為什麼現有的SSM混合模型在推理深度增加時表現下降，而不是因為記不住資訊？

A：研究團隊通過控制變量實驗證實了這一點。他們在測試中保持需要記憶的資訊量完全不變，只增加推理所需的步驟數。結果發現模型表現隨推理深度上升而明顯下降，說明瓶頸不是儲存空間不足，而是模型沒有足夠的計算步驟來把儲存的資訊"想清楚"。就像你把所有數學公式都記住了，但考試時間只有5分鐘，複雜題還是做不完。

贊助商廣告

Q2：LLM睡眠機制的N輪睡眠，是在推理時還是訓練時進行的？

A：N輪睡眠只在訓練階段和推理的"整合階段"進行，不在用戶等待回答的"預測階段"進行。當AI讀入一段上下文準備清空黑板時，會先做N輪內部反覆處理來更新筆記本，之後黑板清空，繼續讀下一段。用戶提問時，AI只進行一次標準的前向計算給出答案，回答速度不受N的影響。

Q3：GSM-Infinite任務中，為什麼要把問題放在文檔前面而不是後面？

A：這樣做是為了讓AI在讀文檔時就已經知道問題是什麼，可以有針對性地在睡眠階段整合與問題相關的資訊，忽略那些干擾性的填充內容。如果問題放在後面，AI在讀文檔時還不知道要找什麼，可能會把大量干擾資訊也整合進筆記本，增加回答時的負擔。這種設計更接近實際應用中"帶著問題讀材料"的場景。