這項由卡內基梅隆大學與馬里蘭大學聯合完成的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.26099,有興趣深入了解的讀者可通過該編號查閱完整原文。
你有沒有過這樣的體驗:白天學了一大堆新知識,腦子裡亂成一鍋粥,但第二天睡一覺醒來,那些知識反而變得清晰了,思路也順了?這種"睡一覺反而更明白"的神奇現象,其實在生物學上早有研究——大腦在睡眠中會把短期記憶整理、壓縮、歸檔到長期記憶里,這個過程叫做"記憶鞏固"。而這篇論文的核心思想,就是把這套生物機制搬進了大型語言模型(也就是ChatGPT這類AI)里,讓AI也學會"睡一覺"來整理記憶、提升推理能力。
研究團隊面對的核心問題是:當AI需要處理非常長的對話或文檔時,它的"工作記憶"(也就是注意力緩存,可以理解為AI的"短期記憶黑板")很快就會寫滿。現有的解決方案雖然能讓AI記住更多內容,但記住和"真正理解、能推理"是兩回事——正如你背下了一道數學題的所有條件,卻不一定能算出答案。這項研究發現,問題的根本不在於"記不住",而在於AI沒有足夠的計算時間去把記住的內容"想清楚"。於是,研究團隊提出了一種全新的機制:讓AI在記憶即將被清空之前,先"睡一覺"——也就是對這段記憶反覆思考幾遍,把關鍵資訊深度整合進自己的"長期記憶權重"里,再繼續處理新內容。
---
一、AI的記憶困境:黑板寫滿了怎麼辦
現代大型語言模型處理資訊的方式,可以用一塊有限大小的黑板來理解。每次AI讀入新的文字,都會把相關資訊寫到這塊黑板上,需要回答問題時再去黑板上查找。這塊黑板就是所謂的"鍵值緩存"(KV Cache),它儲存了AI最近看過的所有內容。問題在於,這塊黑板的空間是有限的,而且隨著內容增多,查找的成本會呈指數級上升——黑板內容翻倍,查找成本就翻四倍。
為了解決這個問題,研究人員之前提出了一種折中方案:在AI架構里加入一種叫做"狀態空間模型"(SSM)的組件,可以把它理解成一個小型的"筆記本"。這個筆記本的大小是固定的,不會隨著內容增多而變大。當黑板快滿時,AI可以把一些內容壓縮摘要寫進筆記本,然後把黑板上的舊內容擦掉,騰出空間給新內容。這種"黑板加筆記本"的混合架構,已經被很多大型AI系統採用,包括一些前沿商業模型。
然而,研究團隊發現了一個此前被忽視的問題:筆記本雖然能記住資訊,但記住和"能推理"是兩碼事。舉個具體的例子:假設你的筆記本里記錄了"A認識B,B認識C,C認識D",現在有人問你"A通過幾個人可以認識D",你需要在腦子裡把這條鏈條一步一步推導出來。如果這條鏈條很長,一步推導需要的"思考深度"就很深。研究團隊發現,現有的混合架構模型在記憶容量足夠的情況下,隨著所需推理深度的增加,表現會急劇下降。換句話說,不是記不住,而是沒時間想清楚。
---
二、向大腦的睡眠機製取經
人類大腦在睡眠中會經歷"海馬體重激活"的過程——白天學習時,資訊先存在海馬體這個臨時中轉站里,到了夜晚睡覺時,大腦會把這些資訊反覆"回放",逐漸將其整合進大腦皮層的神經連接中,形成穩固的長期記憶。睡眠期間,人對外界刺激是沒有反應的,這意味著睡眠必須提供足夠大的認知收益,才值得付出這種"暫時失聯"的代價。
研究團隊從這個生物學機制中獲得了直接啟發。他們設計的方案是:當AI的黑板快寫滿時,先不急著擦掉內容,而是讓AI進入一段"睡眠"——在這段時間裡,AI對當前黑板上的內容進行N輪反覆思考和處理,每次處理都會更新它的"筆記本"(SSM快權重),把理解加深一點。就像你睡覺時大腦反覆回放白天的學習內容,每次回放都讓記憶更牢固、理解更深入。等到N輪"睡眠"結束,AI才把黑板上的舊內容擦掉,用更新後的筆記本繼續處理新內容。
這個機制的精妙之處在於,它把額外的計算量都放進了"睡眠階段",而不是"回答問題階段"。對於用戶來說,AI回答問題的速度沒有任何變化,因為所有的深度思考都已經在"睡眠"中完成了。這就好比一個學生在考試前反覆複習(睡眠階段),考試時(回答問題階段)就能快速給出答案,而不需要在考場上臨時翻書。
---
三、技術細節:AI的"睡眠"具體是怎麼工作的
要理解這套機制的技術層面,可以把整個過程分成兩個階段來看:資訊整合階段和預測回答階段,就像學生的"備考"和"應試"。
在資訊整合階段,AI每讀入一批新內容(比如一段長文檔的某個片段),就會把這段內容寫進黑板。當黑板寫滿時,睡眠機制啟動:AI對黑板上的內容進行N次完整的前向計算(可以理解為N輪"複習"),每次複習都會按照一個學到的規則去更新筆記本里的內容。這個更新規則是通過訓練學出來的,不是人為設定的固定公式,因此AI可以學會最適合當前任務的整合方式。完成N輪睡眠之後,黑板被清空,AI帶著更新後的筆記本繼續讀入下一批內容。
在預測回答階段,AI只進行一次標準的前向計算,直接給出答案。此時黑板里只有最近的少量內容,而大量的歷史資訊都已經以壓縮整合的形式存在筆記本里了。關鍵是,這個筆記本里存的不只是原始資訊的摘要,而是經過多輪深度處理後的、能支持複雜推理的表徵。
整個訓練過程是端到端的:AI被要求在經歷"睡眠"之後給出正確答案,因此它的整個計算圖(包括N輪睡眠的過程)都會被用來計算誤差並更新參數。這意味著AI會自動學會如何在睡眠中整合記憶,而不是靠人來告訴它該怎麼做。研究團隊還特別指出,與之前深度循環模型不同的一點是:在睡眠階段產生的中間特徵向量(可以理解為每輪複習時的草稿紙)會被丟棄,只有筆記本里的更新被保留。梯度(驅動學習的信號)是通過筆記本里的變化來反向傳播的,而不是通過草稿紙。
---
四、第一個測試:讓AI模擬細胞自動機
為了嚴格測試這套機制是否有效,研究團隊設計了一系列精心控制的合成任務。第一個是"細胞自動機規則110"。
規則110是一種非常簡單的一維二進制細胞自動機——你可以把它想像成一排黑白格子,每一步都按照固定的規則變換顏色。比如今天這排格子是"黑白黑黑白...",明天按照規則110就會變成另一種排列,後天又變成另一種,以此類推。這個任務的難點在於:它被數學家證明是P完全的,也就是說,沒有任何捷徑可以直接算出第t步的結果,你只能一步一步地模擬。推演步數t越大,需要的計算深度就越深,這正好是測試AI推理能力的理想工具。
實驗設置是這樣的:AI會看到4段相互獨立的長度為24的二進制字符串,代表4個初始狀態。之後,黑板被強制清空(這模擬了實際應用中的記憶限制),AI需要在之後的預測階段回答:每個初始狀態經過t步變換後,第一位是什麼?
當t=0時,這就是一個簡單的記憶題,只需要把看過的內容記住就行。當t越來越大,AI需要在把內容記進筆記本的過程中,就已經把t步的演化計算出來並存好——相當於在"備考"階段就做好了所有推演。
實驗結果非常清晰:沒有睡眠機制的普通混合模型,在t=16之後表現急劇下降,t=32時基本等同於隨機猜測(準確率約10%)。而加入睡眠機制後,2輪睡眠讓準確率提升到約20%,3輪和4輪睡眠則都達到了30%以上。更重要的是,這種改進與記憶容量完全無關——因為所有實驗中需要記憶的資訊量完全相同,變化的只是推理深度t。這直接證明了性能瓶頸在於計算深度而非儲存空間。
---
五、第二個測試:在圖譜中找路
第二個測試任務叫做Depo,是由卡耐基梅隆大學的研究人員此前設計的多跳知識檢索任務。可以把它理解成一個"人際關係網路尋路遊戲":給你一個打亂順序的有向循環圖(比如"A指向B,F指向L,E指向B..."這樣的邊的列表),然後問你"從節點X出發,走k步能到哪裡?"k越大,需要的推理鏈條就越長。
這個任務比細胞自動機更難,原因有兩點。第一,每個循環圖被拆成4個片段分批輸入,AI需要在接收碎片化資訊的過程中把整個圖結構整合進筆記本,而細胞自動機的每個初始狀態可以完整地在一個窗口內處理。第二,AI必須形成一種"查詢無關"的表徵——因為具體問哪個節點、走幾步,是在圖結構全部輸入完之後才告知AI的,所以筆記本里必須存的是整個圖的可用表徵,而不是針對某個特定問題的答案。
實驗結果同樣令人信服。在1跳和2跳的簡單情況下,有沒有睡眠差別不大,模型都能較快學會。但從4跳開始,1輪睡眠的模型基本停滯不前;從8跳開始,2輪睡眠的模型也開始遭遇瓶頸;只有4輪睡眠的模型,才能在訓練預算內開始學會16跳這個最難的情況。這個梯級式的結果非常優雅地展示了:每增加一輪睡眠,就能解鎖更深一層的推理能力,而且這種改進恰恰集中在那些最需要深度推理的困難問題上。
---
六、真實世界驗證:數學推理任務
前兩個任務都是合成設計的,研究團隊進一步在一個更貼近真實應用的基準上驗證了結論:GSM-Infinite。這個基準是仿照著名的小學數學題數據集GSM8K設計的,每道題包含2000到3300個詞,其中大量是"干擾詞"——外觀上和正文很像,但對解題沒有幫助,這使得簡單的檢索方法完全失效。題目的難度由所需算術運算步驟數來控制,從2步到8步不等。
研究團隊在兩個預訓練好的模型上進行了實驗:一個是Jet-Nemotron 2B(一個已經是SSM-注意力混合架構的模型,由Qwen 2.5 1.5B微調而來),另一個是Ouro 1.4B(一個循環深度的純注意力模型,研究團隊為它額外插入了6個Jet層來增加"筆記本"能力)。所有問題的上下文長度超出了AI的活動黑板大小(設為2000詞),因此AI在回答時必須依賴筆記本里的內容。此外,研究團隊特意把問題放在文檔前面而不是後面,這樣AI在讀文檔時就已經知道要找什麼,可以有針對性地進行記憶整合。
結果與合成任務高度一致。對於只需2到4步運算的簡單題目,有沒有睡眠差別不大,模型都能達到很高的準確率。但從6步運算開始,睡眠的效果開始顯現:對於Jet-Nemotron,6輪睡眠將6步題的準確率從74.2%提升到81.2%,8步題從35.1%提升到38.8%;對於Ouro,4輪睡眠將6步題的準確率從41.9%大幅提升到61.5%,8步題從21.0%提升到27.2%,提升幅度超過30%。Ouro的提升更明顯,研究團隊推測這可能與它的深度循環預訓練方式有關。
---
七、滑動窗口版本:更靈活的"睡眠策略"
除了"每次清空整塊黑板再睡"的硬清空策略,研究團隊還測試了一種更靈活的方式:滑動窗口清空。每次睡眠結束後,黑板不是完全清空,而是保留最近的一小部分內容,只把最老的內容移出黑板。這就像你睡前複習時,不是把所有東西都塞進長期記憶,而是把最久遠的筆記歸檔,保留最近的筆記在手邊。
這種方式在實際應用中更為常見,因為保留部分近期上下文往往能幫助模型更好地處理局部連貫性。研究團隊用窗口大小512(遠小於總文檔長度2000-3300詞)的設置在GSM-Infinite上測試了Ouro模型。
結果同樣印象深刻。在這個更緊張的上下文窗口下,即使是最簡單的2步題,沒有睡眠機制的基線模型準確率也只有59.6%——因為黑板太小,很多有用資訊根本來不及被充分整合。而加入4輪睡眠後,2步題的準確率躍升至90.5%,提升幅度高達52%。這個發現拓展了睡眠機制的適用範圍:不只是在推理深度很大時有用,當黑板相對於文檔來說很小、資訊檢索壓力大時,睡眠同樣能帶來巨大收益。這意味著,**睡眠機制既能幫AI"想得更深",也能幫AI"記得更准"。**
---
八、訓練效率:多睡一覺要多少代價
任何機制的價值都要和它的代價一起考量。研究團隊對訓練效率做了詳細分析。
由於每處理完一個窗口就需要睡N輪再處理下一個窗口,窗口之間存在順序依賴,無法像普通Transformer那樣把所有位置完全並行處理。這種"跨窗口的順序性"理論上會降低並行效率。然而,實驗表明,當窗口大小L足夠大時(比如1K、2K、4K),GPU在處理單個窗口內部時已經足夠飽和,跨窗口的順序依賴對實際訓練吞吐量的影響微乎其微。也就是說,只要你每次餵給AI的"一口飯"夠大,來不來得及"咽下去"再餵下一口,對整體速度的影響就很小。
另一方面,睡眠輪數N對訓練成本的影響則是線性的:睡2輪大約比睡1輪慢一倍,睡4輪大約慢四倍。這是一個清晰的"投入產出"關係,研究者可以根據任務難度和計算預算靈活選擇N的大小。不過需要注意的是,N輪的深度反向傳播可能帶來訓練不穩定的問題,研究團隊在論文討論部分提到這是現有的局限性之一,可以通過隱式梯度或截斷反向傳播等技術來緩解。
---
歸根結底,這篇論文講了一個很樸素的道理:把東西記住,和真正想明白,是兩件不一樣的事。現有的AI架構在給記憶系統設計了一個"筆記本"之後,就以為萬事大吉,卻忽略了"往筆記本里寫東西"本身也需要認真思考——尤其是當問題需要多步推導時,一遍走馬觀花根本不夠。
研究團隊提出的"睡眠"機制,本質上是在說:在把內容從黑板上擦掉之前,先多看幾遍,讓AI有足夠的時間把這段內容真正消化透。這個想法和人類大腦的工作方式有著出奇一致的邏輯,而實驗結果也證明它確實有效——特別是在那些最難、推理鏈條最長的問題上,效果最為顯著。
對於普通人而言,這項研究的意義在於:未來的AI助手在處理長文檔、複雜推理、多步驟數學題時,可能會更加可靠。同時,它也暗示著一個有趣的方向:與其讓AI在回答你的問題時絞盡腦汁臨場推演,不如讓它在"空閒時間"先把材料預消化好,回答時才能又快又准。這種"把功夫下在平時"的思路,恰恰也是人類學習中最經典的智慧。
如果你對這套機制的技術細節感興趣,歡迎通過arXiv編號2605.26099查閱完整原文,作者來自卡內基梅隆大學與馬里蘭大學,裡面有詳細的數學推導和實驗設置供深入研讀。
---
Q&A
Q1:為什麼現有的SSM混合模型在推理深度增加時表現下降,而不是因為記不住資訊?
A:研究團隊通過控制變量實驗證實了這一點。他們在測試中保持需要記憶的資訊量完全不變,只增加推理所需的步驟數。結果發現模型表現隨推理深度上升而明顯下降,說明瓶頸不是儲存空間不足,而是模型沒有足夠的計算步驟來把儲存的資訊"想清楚"。就像你把所有數學公式都記住了,但考試時間只有5分鐘,複雜題還是做不完。
Q2:LLM睡眠機制的N輪睡眠,是在推理時還是訓練時進行的?
A:N輪睡眠只在訓練階段和推理的"整合階段"進行,不在用戶等待回答的"預測階段"進行。當AI讀入一段上下文準備清空黑板時,會先做N輪內部反覆處理來更新筆記本,之後黑板清空,繼續讀下一段。用戶提問時,AI只進行一次標準的前向計算給出答案,回答速度不受N的影響。
Q3:GSM-Infinite任務中,為什麼要把問題放在文檔前面而不是後面?
A:這樣做是為了讓AI在讀文檔時就已經知道問題是什麼,可以有針對性地在睡眠階段整合與問題相關的資訊,忽略那些干擾性的填充內容。如果問題放在後面,AI在讀文檔時還不知道要找什麼,可能會把大量干擾資訊也整合進筆記本,增加回答時的負擔。這種設計更接近實際應用中"帶著問題讀材料"的場景。






