這項由谷歌研究院與康奈爾大學聯合開展的研究,以預印本形式發布於2026年6月,論文編號為arXiv:2606.03979,題為《Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories》。感興趣的讀者可通過該編號在arXiv平台上查閱完整論文。
**現在的AI,就像一個患了失憶症的天才**
你有沒有注意到一件奇怪的事情?當你問ChatGPT一個問題,它能給你非常精彩的回答,但如果你問它去年剛發生的新聞,或者某個上個月才公布的科學發現,它往往一無所知——甚至還可能信心滿滿地給你一個過時的錯誤答案。這不是因為這些AI模型不夠聰明,而是因為它們被"凍結"了。
一旦一個大型語言模型(簡單理解為現在各種聊天AI背後的核心技術)完成了最初的訓練,它的知識就停留在了那個時間點,就像一張被封存在琥珀里的快照。時間一天天過去,新的事件發生,新的知識湧現,但模型內部的"大腦"卻一動不動。更糟糕的是,如果你試圖強行更新它,教它學習新知識,它很可能會把之前學到的東西全部忘掉——這個現象在學術界被稱為"災難性遺忘",就好比你拼命背單詞的時候,腦子裡原本牢記的數學公式全都消失了。
這就是谷歌研究院與康奈爾大學的研究團隊試圖解決的核心難題。他們的解決方案,受到了人類大腦一個最古老、最神秘的行為的啟發——睡眠。
**一、人類為什麼要睡覺?大腦的"夜間整理程序"**
在正式講研究方案之前,有必要先聊聊人類的記憶是如何工作的,因為整個研究的邏輯都建立在這個基礎之上。
神經科學家們發現,人類的記憶鞏固分為兩種截然不同的過程。第一種發生在清醒狀態下,叫做"在線鞏固"——當你白天學到一個新知識,大腦會立刻開始處理和穩定它,就像你在筆記本上記下一個臨時的備忘。第二種更有意思,叫做"離線鞏固",它發生在你睡著之後。
睡眠並不是大腦的"關機"狀態,恰恰相反,睡著的大腦其實異常忙碌。科學家已經發現,人類的睡眠分為兩個關鍵階段,它們輪流交替出現。第一個是慢波睡眠(NREM),在這個階段,大腦會進行一種叫做"記憶鞏固"的操作——它把白天學到的零散碎片化資訊,從一個叫做海馬體的臨時儲存區,慢慢遷移到大腦皮層這個更穩定、更長期的儲存系統里。這個過程不是簡單地"複製粘貼",而更像是把雜亂的素材重新編輯、提煉,剔除無關的細節,保留最重要的模式和規律。第二個階段是快速眼動睡眠(REM),這個時候大腦高度活躍,與清醒時幾乎相同,是做夢的時候。REM睡眠負責把新資訊與大腦里已有的知識網路編織在一起,探索新的關聯,強化重要的神經連接。
研究團隊由此得到了啟發:如果AI模型也能擁有類似的"睡眠機制",是不是就能解決知識凍結和災難性遺忘這兩大頑疾?
**二、今天的AI,像一個患了"順行性失憶症"的人**
研究團隊在論文中用了一個非常生動的比喻來描述現有AI的困境——順行性失憶症。這是一種真實存在的神經疾病,患者無法形成新的長期記憶,但舊的記憶依然完好保存。最著名的案例是一位名叫H.M.的患者,他因手術失去了海馬體,此後每天早上醒來都不記得昨天發生了什麼,卻清晰地記得二三十年前的往事。
現有的大型語言模型恰好有著類似的模式。這些模型的"記憶"基本上只有兩種:一種是"當前對話的上下文",也就是你和它在這次對話里說過的內容,一旦對話結束這些內容就消失了;另一種是被永久固化在模型參數裡的"預訓練知識",就是它在訓練完成時就確定下來、之後再也不會更新的知識庫。前者就像短期記憶,後者就像長期記憶,但兩者之間缺乏一座橋樑——沒有機制能讓短期的新知識流入長期的穩定儲存中。
研究團隊將這種架構進一步理論化,引入了一個叫做"連續記憶系統"(CMS)的概念框架。這個框架把模型內部的不同組件按照它們"更新頻率"的高低排成一列:更新最頻繁的部分(比如負責處理當前輸入的注意力機制)就像短期記憶,更新最慢的部分(比如深層的全連接網路)就像長期記憶。在這個視角下,災難性遺忘的根本原因就變得清晰了:當所有模組同步更新的時候,新知識會把舊知識擠掉,因為整個系統的容量是有限的。
**三、"Sleep"框架:給AI設計一個完整的睡眠程序**
研究團隊提出的核心方案叫做"Sleep"框架,其思路正是模仿人腦的睡眠機制,為AI設計一套分階段的離線處理流程。他們認為,一個真正能持續學習的AI,不應該被劃分為"訓練期"和"測試期"——這種劃分本身就是人工的,與真實世界的學習不符。更合理的模型是:AI存在兩種狀態,一種是"清醒活躍"狀態,負責接收和處理外部輸入;另一種是"睡眠"狀態,不接收新的外部資訊,專注於內部知識的整理、鞏固與自我提升。
整個Sleep框架由兩個依次進行的階段組成,對應著人類睡眠中的慢波睡眠和快速眼動睡眠。
第一個階段叫做"記憶鞏固",對應慢波睡眠。這個階段的核心任務是把儲存在高頻率(不穩定)模組中的知識,遷移並鞏固到低頻率(穩定)的模組裡。為了實現這個目標,研究團隊設計了兩個相互配合的機制:參數擴展和知識播種。
關於參數擴展,可以這樣理解:模型的"容量"是有限的,如果你不斷往一個固定大小的盒子裡塞東西,新來的東西就會把舊東西擠出去。大腦解決這個問題的方式是神經可塑性——在需要的時候,大腦會生長出新的神經連接,從而擴大儲存空間。研究團隊模仿這個機制,設計了一套"漸進式參數激活"方案:在每次睡眠周期到來時,系統會在更穩定的記憶模組裡激活一批之前一直處於"休眠"狀態的新參數(以輕量級的低秩矩陣形式存在,這是一種高效的參數擴展技術),專門用來存放即將遷移過來的新知識。這樣一來,新知識有了專屬的儲存空間,不會干擾已有的舊知識。等到下一次睡眠周期,當這批知識已經成功遷移到更穩定的模組後,之前高頻模組裡臨時儲存這些知識的參數就會被"清空重置",騰出空間迎接下一輪新知識——這個清空過程類似於人腦中的"突觸修剪",把用不上的冗餘連接刪掉以提升效率。
值得一提的是,論文中還指出一個有趣的實現細節:這些"休眠"參數其實一開始就存在於模型內部,只是被隱藏了,不參與前向計算和反向傳播。這與我們對人腦的理解高度吻合——人腦的總容量大致固定,並不會在成年後不斷生長出全新的神經元,但大腦中神經元之間的連接可以在一生中不斷形成、強化或修剪。
**四、知識播種:一場"小我"教會"大我"的奇特課程**
有了新的儲存空間,下一個問題就是:怎麼把知識從高頻模組遷移到低頻模組?研究團隊為此設計了一套叫做"知識播種"(Knowledge Seeding)的方法,這是整個框架里技術上最精妙的部分。
知識播種本質上是一種"知識蒸餾",但方向非常反常——通常情況下,知識蒸餾是讓大模型去教小模型,就像有經驗的老師把知識傳授給年輕學生。但知識播種做的是完全相反的事:讓小模型(高頻率、參數較少的舊版模型)把知識蒸餾給大模型(加入了新參數之後容量更大的新版模型)。這就好比一個知識豐富但腦容量受限的舊版自己,把積累下來的精華傳授給了一個剛剛獲得更多腦細胞、潛力更大的新版自己。
這個過程面臨兩個挑戰。第一,學生(新版大模型)比老師(舊版小模型)擁有更強的表達能力和潛力,如果只是讓學生死記硬背老師說的話,就是對新增容量的浪費;第二,由於模型處於睡眠狀態,沒有外部數據可用,所有的學習材料必須靠自己生成。
為了解決這兩個問題,研究團隊借鑑了一個叫做"廣義知識蒸餾"(GKD)的方法,並在此基礎上加入了強化學習思路。具體流程是這樣的:首先,用舊版小模型(老師)生成一批合成數據,相當於老師出了一套題目和答案。接著,新版大模型(學生)不僅要學習老師的答案,還要生成自己的答案,並與老師的答案進行對比,以此獲得實時反饋。這個混合了老師數據和學生自產數據的訓練方式,就像既讓學生抄習題冊又讓他自己做練習,兩者結合效果更好。
在這之上,研究團隊還加了一個叫做"模仿學習"(Learning to Imitate)的環節,這是整個知識播種框架里的強化學習部分。具體做法是:從老師生成的數據中隨機截取一段前綴,然後要求學生續寫後半段,學生的獎勵根據兩個維度來評分——語義上是否與老師的原版一致(就像兩段話說的是不是同一個意思),以及字面上的相似程度(用一種叫做"編輯距離"的指標來衡量,即需要改動多少個字才能讓學生的答案變成老師的答案)。這個機制迫使學生不僅要理解老師的知識內容,還要學會像老師一樣去表達和運用這些知識。整個知識播種的訓練目標把上述的蒸餾部分和模仿學習部分加權結合,通過一個控制參數在兩者之間靈活調節側重點。在整個知識播種過程中,模型原有的參數全部凍結,只有新擴展的參數會被更新,這從根本上杜絕了舊知識被覆蓋的風險。
**五、夢境:睡眠的第二階段——讓AI學會"做夢來強化自己"**
完成記憶鞏固之後,Sleep框架進入第二階段:做夢(Dreaming)。這對應人類睡眠中的REM快速眼動階段。
如果說記憶鞏固的任務是"穩定已有知識,防止遺忘",那麼做夢的任務就是"主動探索,進一步提升能力"。在這個階段,模型不接收任何外部輸入,完全依靠自己生成"夢境"——也就是人工合成的訓練數據——然後用這些數據來訓練自己,進行自我提升。
這個思路並不全新,AI領域已經有一些類似的"自我改進"方法,其中一個叫做SEAL的系統是研究團隊直接參考的對象。但直接沿用SEAL存在三個問題:第一,SEAL每次自我編輯都需要完整的監督微調,計算代價很高,能生成的"夢"的數量有限;第二,在持續學習的場景下反覆進行自我改進,可能會導致災難性遺忘;第三,SEAL只會在模型已有的知識空間裡採樣,而做夢的一個重要功能恰恰是探索新穎的、超出常規思維的組合——畢竟,很多靈感就是在夢裡產生的。
研究團隊的做夢流程是這樣設計的:給定一個具體任務(包括任務相關的背景資訊和評估標準),模型先生成一批合成的"夢境"數據。為了引入多樣性和新穎性,在採樣過程中,模型內部的混合專家路由器(可以理解為模型內部的一個"分工調度員")除了會選擇與任務最相關的專家模組,還會額外隨機激活一個不相關的專家模組,把看似風馬牛不相及的知識也引入到夢境生成中,從而產生意想不到的新聯繫。
生成了一批夢境之後,並不是所有夢都有用。研究團隊設計了一套基於梯度的篩選機制來判斷哪些夢境最有潛力——直覺上理解,就是看"如果用這條夢境數據來訓練自己,模型的參數會發生多大的變化",變化越大說明這條數據資訊量越豐富,越值得學習。系統選取變化最大的若干條夢境,再額外隨機抽取幾條以保持多樣性,形成最終用於自我訓練的數據集。對於每一條被選中的夢境,系統用高效的低秩適配技術(LoRA)對模型進行微調,然後測試微調後的模型在任務上的表現是否有所提升,以此作為獎勵信號,通過強化學習來優化整個"產夢-篩夢-自學"的流程。
**六、實驗結果:真的有效嗎?**
研究團隊在四類不同的任務上對Sleep框架進行了全面的實驗驗證。
在持續學習任務上,團隊測試了一項叫做"類增量學習"的能力,簡單說就是讓模型按順序學習不同的新類別,考驗它能否同時記住舊類別又學會新類別。在CLINC、Banking和DBpedia三個標準數據集上,使用了Llama-3B和Llama3-8B作為底層模型,結果一致顯示配備Sleep框架的Hope架構在準確率上顯著優於傳統的上下文學習方法、彈性權重鞏固等既有技術。
在語言翻譯的持續學習測試中,實驗設計更具挑戰性:讓模型順序學習滿語和卡拉芒語兩種在預訓練中從未見過的語言,然後評估它對兩者的翻譯能力。普通的上下文學習方法在學習了第二種語言後,第一種語言的翻譯成績急劇下滑,幾乎退回到原始狀態。而配備了Sleep框架的版本隨著鞏固階段數的增加(Hope-1、Hope-2、Hope-3),表現穩步提升,Hope-3幾乎能在持續學習條件下恢復到單獨學習每種語言時的成績。作為對比,文中提到Cartridges和監督微調兩種方法在這個任務上都出現了至少一種語言的災難性遺忘,表現甚至弱於普通的上下文學習。
在超長文本理解方面,研究團隊在BABILong這個極端測試集上進行了評估,該測試集要求模型處理最長達一千萬個詞符的超長文本——相當於幾十本長篇小說的體量。GPT-4這樣的大模型在文本超過二三十萬詞符之後性能就開始急劇下滑,到百萬詞符級別基本失效。帶檢索增強的Llama-8B也無法穩定處理超過幾十萬詞符的情況。而在加入Sleep框架後,模型在一千萬詞符級別依然保持近乎完美的準確率,遠超所有對比系統。
在長文本理解的細粒度評估中,實驗通過改變鞏固階段的數量和最慢記憶模組的更新頻率來考察框架各部分的貢獻。結果表明,隨著鞏固階段數量的增加,在三個不同的長文本理解基準上性能持續提升,說明睡眠機制確實在幫助模型將資訊更好地抽象和壓縮進更穩定的參數裡。
在數學推理任務上,研究團隊將Sleep框架與監督微調、GRPO強化學習方法進行了對比,在AIME-24、AIME-25和HMMT-25三個高難度數學競賽測試集上,使用了Qwen3-1.7B和Qwen3-8B兩種規模的模型。以Qwen3-8B為例,基礎指令微調版本在AIME-24上得分73.8,監督微調提升到75.5,GRPO進一步提升到76.4,而Sleep框架則達到了79.2,領先優勢相當明顯。
在知識整合任務上,模型需要學習SQuAD閱讀理解數據集裡的新事實,然後在沒有原文背景的情況下回答相關問題。單次學習一篇文章的場景下,Sleep框架(使用四層記憶系統的版本)達到48.9的準確率,而基礎模型是31.9,SEAL是46.7。在持續學習200篇文章的場景下,Sleep框架達到46.2,SEAL是43.2,優勢進一步擴大。
在少樣本抽象推理任務上,以Llama-3.2-1B為底層,Sleep框架實現了80%的成功率,而普通上下文學習是0%,測試時訓練是10%,SEAL是72.5%。
消融實驗驗證了每個組件的必要性:去掉模仿學習環節、去掉語義獎勵、去掉參數擴展,都會造成不同程度的性能下降;而去掉做夢階段的影響最為顯著,知識整合準確率從48.9直接下降到35.7,說明做夢階段是整個框架不可或缺的組成部分。
在計算效率方面,對比訓練到相同性能水平所需的時間,監督微調需要4.3倍到4.8倍的實際計算時間才能追上Sleep框架的成績,說明Sleep框架在達到同等性能的前提下反而更加高效。
**七、與現有技術的本質區別**
研究團隊在論文中專門花了很大篇幅來闡述Sleep框架與最近湧現的"在策略自蒸餾"(OPSD)系列方法之間的本質區別,因為兩者表面上都涉及"用自己訓練自己",但核心截然不同。
在策略自蒸餾的核心邏輯是:給同一個模型一個"有特權資訊"的版本作為老師,給一個"普通資訊"的版本作為學生,讓學生模仿老師。這類方法在數學推理、代碼生成、多語言對齊等具體任務上都取得了不錯的效果,並且產生了大量後續研究。但這類方法有一個共同局限:老師和學生共享同一套參數,模型的總容量保持不變。
Sleep框架與之不同之處體現在四個維度。第一,Sleep的知識播種是一種"向上蒸餾"——容量更小的舊版模型作為老師,容量更大(經過擴展)的新版模型作為學生,這從根本上把災難性遺忘重新定義為一個"容量不足"問題而非"採樣分布"問題,並通過漸進式參數增長來解決它。第二,Sleep維護了一條由不同更新頻率的記憶模組構成的連續譜,在每一對相鄰頻率的模組之間都進行知識鞏固,而不是在一對固定的老師-學生之間進行一次蒸餾。第三,Sleep不僅有類似慢波睡眠的鞏固階段,還有類似REM睡眠的做夢階段,後者通過梯度導向的數據選擇和混合專家路由器的隨機激活,主動探索新穎知識組合併抵抗疊代自我改進過程中的遺忘風險,而這正是近期多篇OPSD研究揭示的失效模式所在。第四,Sleep的知識播種在在策略蒸餾的基礎上額外引入了基於強化學習的模仿學習目標,讓更大的學生不僅繼承老師的知識內容,還學會了老師運用知識的方式。
說到底,這項研究做的事情,是在回答一個聽起來簡單卻極為深刻的問題:一個真正能持續學習的AI,應該是什麼樣的?研究團隊的答案是:它應該像人一樣,不僅在醒著的時候積極學習,還需要定期"睡一覺",讓大腦把白天接收的零散資訊整理成穩固的長期知識,同時還要會"做夢",在夢中將不同的記憶碎片重新組合,探索新的可能。
歸根結底,當前的AI模型之所以會陷入知識過時和災難性遺忘的兩難困境,根本原因在於它們的架構從一開始就沒有為持續學習做好設計。Sleep框架提供的不是一個小修小補的補丁,而是一套從架構層面重新定義AI學習周期的思路——將"清醒-睡眠"這個生物學意義上最基本的節律,轉化為AI系統能夠落地實現的工程機制。
當然,這項研究也有其局限性。論文中的實驗主要基於幾個具體的模型和基準數據集,Sleep框架在更大規模模型上的表現、在更廣泛任務類型上的適用性,以及長期運行多個睡眠周期後參數規模不斷膨脹帶來的工程挑戰,都還需要未來研究進一步探索。不過,從已有的實驗結果來看,這個方向的價值是切實存在的。
如果你對這項研究的技術細節感興趣,可以通過arXiv編號2606.03979找到完整論文,親自體驗一下那些更深入的數學公式和實驗設定。
---
Q&A
Q1:大型語言模型的"災難性遺忘"是什麼意思?
A:災難性遺忘是指AI模型在學習新知識的過程中,把之前已經學好的舊知識覆蓋掉的現象。就像你強行背了一堆新單詞,結果把原本熟練掌握的數學公式全忘了。這是目前讓AI持續學習新知識面臨的最大技術障礙之一,因為模型的參數容量有限,新內容進來就會把舊內容擠出去。
Q2:Sleep框架的"做夢"階段具體是怎麼讓模型提升自己的?
A:Sleep框架的做夢階段是讓模型在不接收外部數據的情況下,完全靠自己生成合成訓練數據(即"夢境"),再用這些數據訓練自己。為了讓夢境更有用,系統會通過梯度評分篩選出最有資訊量的樣本,同時隨機激活不相關的知識模組來產生新穎組合。用這批精選夢境對模型進行微調後,以任務表現是否提升作為強化學習的獎勵信號,循環優化整個"產夢-篩夢-自學"流程,實現無需人工干預的自我提升。
Q3:知識播種為什麼要讓小模型教大模型,而不是反過來?
A:這是Sleep框架最反直覺的設計之一。傳統知識蒸餾是大模型教小模型,把知識壓縮下去。但Sleep框架在記憶鞏固階段需要把已有知識遷移到新擴展的更大容量模組裡,所以方向反過來了——原有的小版本模型作為老師,把它積累的知識"播種"給剛獲得新參數、容量更大的版本。這樣做的好處是新增的參數有了專屬的學習目標,不會干擾舊參數裡已有的知識,從根本上避免了災難性遺忘。






