當大腦"整理記憶"的方式被寫進AI代碼——MusubiAI的Mela模型是如何讓機器也學會"遺忘與升華"的？

這項由MusubiAI獨立研究員完成的工作以預印本形式於2026年5月發布，論文編號為arXiv:2605.10537，感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

人的大腦每天都在悄悄做一件了不起的事——它不會把你經歷過的每一個細節都原封不動地塞進腦袋，而是在你睡覺的時候，把那些零散的、原始的記憶碎片"重新整理"一遍：把重要的模式提煉成長期知識，把具體的情節壓縮成抽象的經驗。神經科學家把這個過程叫做"記憶鞏固"。這篇論文的核心思路，就是把這套大腦的整理機制，原原本本地復刻到AI語言模型的設計里。

這件事聽起來有點玄，但它解決的卻是一個非常實際的工程難題。今天主流的AI語言模型，比如驅動各種聊天機器人的Transformer架構，有一個讓工程師們頭疼的缺陷：它處理文字時，需要同時"看著"所有的字，而這種"看"的計算代價會隨著文字數量的增加急速膨脹——準確說是平方級增長。處理1000個字需要100萬次計算，處理10000個字就需要1億次。這就是為什麼大多數AI模型都有一個"上下文窗口"的限制，超出這個範圍，它就開始遺忘或者犯錯。

MusubiAI提出的Mela模型，試圖用一套仿照人類大腦記憶鞏固機制的新結構，從根本上解決這個問題。研究團隊訓練Mela時只用了4096個字（4K）的上下文窗口，但在測試時，Mela卻能穩定地處理32768個字（32K）的超長文本，而同等規模的傳統Transformer模型在超過4K之後，表現就急劇崩潰。這篇文章將完整地帶你理解這是怎麼做到的。

一、記憶為什麼重要，以及AI的記憶有什麼問題

要理解Mela做了什麼，得先從"記憶"這件事說起。

神經科學界有一個持續了幾十年的辯論，核心問題是：人的記憶到底是怎麼從短暫的印象變成長久的知識的？目前主流存在三種理論，它們在大方向上是一致的，但在細節上有爭論。標準鞏固理論認為，記憶先在大腦的海馬體裡暫存，然後慢慢轉移到大腦皮層，最終與海馬體完全"脫鉤"成為獨立的長期記憶。多重痕跡理論則認為，至少對於那些帶有豐富情境細節的記憶，海馬體永遠都會參與其中，每次回憶都會留下新的痕跡，讓記憶越來越牢固。而"轉化假說"則是這篇論文最核心的靈感來源——它認為，記憶鞏固的本質不是"把記憶搬到另一個地方"，而是"把記憶的內容從豐富具體的情節，轉化成更抽象、更通用的圖式知識"。海馬體負責那些"你記得那天下午陽光很好"的細節感知，而大腦皮層負責的是"那段時間你總體上很快樂"這樣的提煉性概念。更重要的是，轉化假說認為，回憶本身不是被動地讀取一段固定的錄像，而是在當前情境、個人目標的共同作用下，主動重建出來的。

贊助商廣告

這套理論對AI設計有什麼啟發？研究團隊認為，現有的AI語言模型有一個根本性的設計缺陷：它們要麼把所有歷史資訊都保留在注意力窗口裡（代價太大），要麼把歷史資訊壓縮成固定大小的狀態向量（太粗糙，資訊損失嚴重）。兩種做法都沒有做到"分層鞏固"——既保留具體的情節細節，又提煉出抽象的全局知識，並且在回憶時能根據當前需要靈活地混合兩者。

Mela的解決方案，就是在語言模型里內置一個模擬大腦記憶鞏固過程的專用模組，讓它在處理每一段新文字時，同時完成兩件事：一是保留足夠豐富的情節性記憶，二是將這些記憶持續提煉成更高層次的語義知識。

二、分工明確的記憶雙引擎：HMM是什麼

Mela架構的核心部件叫做"分層記憶模組"（Hierarchical Memory Module，簡稱HMM）。理解HMM最直接的方式，是把它比作一個由兩位性格迥異的編輯共同運作的新聞編輯室。

第一位編輯叫做"L模組"（低層記憶模組），她的工作節奏非常快，對每一條新聞都保持高度關注，筆記里記滿了具體的人名、地點、時間和細節。她的記憶是"情節性"的——在神經科學的類比中，她扮演的是海馬體的角色。

第二位編輯叫做"H模組"（高層記憶模組），他工作節奏較慢，每隔一段時間才看一次L模組整理好的材料，然後從中提煉出這段時間的核心趨勢和模式，寫成一份言簡意賅的綜述。他的記憶是"語義性"的——在神經科學的類比中，他扮演的是大腦皮層的角色。

這兩位編輯的關鍵區別不僅在於工作節奏，還在於他們分別處理什麼程度的資訊。L模組參數量更少，更"輕盈"，每一個時間步都會更新自己的記憶狀態；H模組參數量更多、更"深沉"，每次只有在L模組已經完成若干輪整理之後，才會根據L模組的最新輸出來更新自己的狀態。這種更新節奏上的差異，在神經科學裡有一個專門的名字，叫做"跨頻耦合"——大腦里不同腦區的神經振盪以不同的頻率運作，而它們之間的協同正是大腦整合資訊的關鍵機制。研究發現，前額葉皮層的跨頻耦合強度與人的流體智力高度相關，而跨頻耦合的異常則與精神分裂症等認知障礙有關聯。Mela的設計者認為，這種"快-慢嵌套"的結構值得被引入到AI架構設計中來。

贊助商廣告

兩個模組是怎麼協作的？這套協作機制叫做"分層潛遞歸"（Hierarchical Latent Recursion，簡稱HLR）。它的運作方式是這樣的：給定一段輸入文字，L模組先獨立運行若干輪，不斷打磨和精煉自己的"情節記憶"；每完成這若干輪，H模組就看一眼L模組此刻的狀態，更新自己的"語義記憶"；這個"L循環多輪、H更新一次"的大循環再整體重複若干次。整個過程在訓練時除了最後一輪之外，中間的遞歸步驟都不參與梯度計算（意思是不更新參數），只有最後一輪完整地走一遍反向傳播。這種設計既避免了極大的計算開銷，又讓模型能在推理時做相當深度的"思考"。

HLR與之前一個叫做HRM（分層推理模型）的工作有相似之處，但有一個關鍵改進：HRM依賴一個"遞歸會收斂到固定點"的假設，以此來合理化它的梯度近似方法，而這個假設在實踐中很難保證成立。Mela採用的HLR參考了另一個叫做TRM的工作——不依賴固定點假設，只對最後一步計算梯度——同時保留了HRM的神經科學分層設計哲學，並在其基礎上加入了"兩個模組的輸出最終融合"這一關鍵改進，而不是像HRM和TRM那樣只用高層模組的輸出。

在具體實現上，HMM的每個記憶塊內部包含兩個子層：一個是"門控注意力"層，用來在局部窗口內靈活地讀寫資訊；另一個是"神經記憶"層，它以神經網路的權重參數本身作為記憶的載體，通過梯度下降將新資訊寫入其中。神經記憶層的工作原理可以這樣理解：它維護一張"鍵值對聯想表"，每次接收新的輸入時，都計算"當前輸入和我已有的聯想知識之間差了多少"，然後按照這個差值的大小來決定更新多少。這種"用驚訝程度來決定學習強度"的機制，與人類大腦中新奇刺激更容易被記住的機制有概念上的對應關係。

在內存更新的具體公式層面，Mela採用了帶遺忘因子和動量的梯度更新規則。遺忘因子控制著過去的記憶保留多少——當它接近1時，幾乎不遺忘；當它接近0時，幾乎全部更新為新內容。動量則防止模型在"極度驚訝"的步驟之後陷入混亂，讓更新方向保持一定的慣性。此外，Mela還引入了一個來自Muon優化器的技巧，叫做Newton-Schulz正交化——每次更新記憶權重時，先把梯度方向"正交化"（大致相當於讓更新方向儘量不相互干擾），再寫入記憶。消融實驗證明這個步驟讓困惑度下降了約0.21個點，是一個有效但往往容易被忽略的細節。

贊助商廣告

最後，在完成所有遞歸之後，HMM把H模組的語義記憶（h state）和L模組的情節記憶（l state）通過一個兩層MLP（多層感知機，可以理解為一個簡單的前饋神經網路）融合在一起，生成最終的記憶輸出。這種融合方式允許模型根據當前查詢的需要，靈活地在情節細節和語義概括之間權衡，而不是硬性地選擇某一種。消融實驗顯示，簡單的加權求和在這裡效果反而不如不融合，因為固定的權重無法適應不同位置、不同情境下"情節記憶"和"語義記憶"各自的重要程度變化；而用MLP做融合，由於MLP可以做到"輸入依賴"的非線性變換，效果最好。

三、記憶如何變成語言模型的"參考書"：Mela的整體架構

有了HMM這台"記憶工廠"，下一步是把它產出的記憶內容接入到真正做語言預測的解碼器里。Mela的做法是把HMM產出的記憶片段，當作解碼器在處理每一段文字時可以查閱的"參考書頁"。

具體來說，輸入的文字序列首先被切成若干固定大小的"塊"（chunk），每一塊在進入解碼器之前，都會有若干個來自HMM的記憶特徵向量被"拼在前面"。解碼器在處理這一塊文字時，文字里的每個詞都可以看到這幾個記憶特徵向量，但塊與塊之間的文字相互看不見——跨越塊邊界的資訊，必須完全依靠那幾個記憶特徵向量來傳遞。這個設計的用意是強迫解碼器真正依賴HMM的記憶，而不是繞開記憶、直接靠注意力機制把很長的歷史文字都看一遍。

在具體參數上，輸入文字先經過一個1D卷積層被"打包"成更大顆粒的"補丁"（patch），每個補丁包含32個連續的詞元，作為進入記憶模組的最小單位。補丁序列再被切成每塊64個補丁的"塊"，交給神經記憶層處理。這兩個參數（補丁大小和塊大小）控制著記憶更新的時間解析度與計算代價之間的平衡。

更精妙的地方在於如何利用HMM遞歸過程中產生的中間狀態。HLR進行H輪遞歸，每一輪都會產生一對（l state, h state）。研究團隊提出了一個叫做MemStack的方法：不只是把最後一輪的記憶輸出注入到解碼器的輸入層，而是把每一中間輪次的記憶狀態（同樣經過融合MLP處理）注入到解碼器的對應早期層。具體來說，第1輪的中間記憶特徵被加到解碼器第1層的隱藏狀態上，第2輪的特徵加到第2層，以此類推，最後一輪的最終記憶特徵則以普通記憶特徵向量的形式存在於輸入序列里。這樣，解碼器的早期層不僅處理記憶內容本身，還處理了記憶在不同鞏固階段的"中間形態"——研究團隊認為，這類似於大腦在認知時可能同時訪問不同抽象程度的記憶痕跡。消融實驗驗證了MemStack帶來了約0.1個困惑度點的提升。

贊助商廣告

四、三個規模，一個結論：Mela在語言建模上真的更好嗎

Mela被設計成三個參數規模：約4億參數（400M）、約8億參數（800M）和約12億參數（1.2B）。每個規模都有一個同等參數量的Transformer++作為對照——Transformer++是現代LLaMA風格的標準Transformer，集成了RMSNorm、SwiGLU激活函數、旋轉位置編碼（RoPE）和分組查詢注意力（GQA）等當前最佳實踐。兩組模型都用了同一個數據集（FineWeb-Edu）的50億詞元進行訓練，訓練時上下文窗口都固定在4096個詞元（4K）。

評測指標是"困惑度"（perplexity）——簡單說，困惑度越低，意味著模型預測下一個詞的時候越"胸有成竹"，模型性能越好。

在4K以內的訓練範圍內，Mela在三個規模上都優於同等參數量的Transformer++。以400M為例，在4096詞元的上下文長度下，Mela的困惑度是12.01，而Transformer++是12.56；在1024詞元下，Mela是12.53，Transformer++是13.59。這說明Mela不是靠某種特殊的"長度技巧"贏的，而是在同等規模下確實學到了更好的語言模型。

更戲劇性的差距出現在超出訓練長度之後。在8192詞元（約為訓練長度的兩倍）時，Mela-400M的困惑度從4K時的12.01微升到12.64，而Transformer++-400M從12.56急劇跳升到28.26。到了16384詞元，Mela-400M是14.43，Transformer++-400M已經飆到130.21。到了32768詞元，Mela-400M穩在14.50，而Transformer++-400M是303.56——後者的困惑度已經高到實際上什麼有用資訊都沒學到的程度。這個差距在1.2B的規模上同樣成立：32K時，Mela-1.2B的困惑度是11.85，Transformer++-1.2B是597.37。

這說明什麼？Mela通過HMM的記憶鞏固機制，實際上在推理時"學會了"如何把超出訓練窗口的歷史資訊壓縮進記憶狀態，因此當上下文變得更長時，它不會因為"沒見過這麼長的序列"而崩潰，而是繼續用記憶狀態來傳遞跨越片段邊界的資訊。

五、深入挖掘每個設計選擇：消融實驗說了什麼

論文包含了相當詳盡的消融實驗，系統地驗證了每個設計選擇的貢獻。

贊助商廣告

**H循環數量的影響。**H循環控制的是"整體鞏固深度"——做幾輪"L模組精煉多次、H模組更新一次"的大循環。把H從1增加到2，再從2增加到4，困惑度在所有上下文長度上都單調下降。在4K以內，H=2和H=4之間的差距很小（約0.06到0.08個點），但在超出4K之後，差距迅速擴大——在8K時差距達到0.33，在16K時是0.18。這個規律暗示了一件有意義的事：更深的H循環對於長程記憶的質量至關重要，而不只是對短程預測有幫助。這與轉化假說的預測一致——長時間的鞏固過程對於形成高質量的長期語義記憶更加重要。

**L循環數量的影響。**L循環控制的是"H模組每次得到多精煉的情節記憶作為輸入"。L=4明顯優於L=1，比如在4K時困惑度從14.96降到13.59。但一個有趣的異常是L=2反而比L=1還差——在1K時，L=2是23.72，而L=1是21.24，L=4是19.11。研究團隊解釋說，兩步的L循環處於一個"尷尬區間"：已經足夠延遲H模組的更新（帶來了資訊滯後），但又不足以真正精煉出有意義的情節記憶（沒有收到足夠的回報）。同時，L循環的效果沿著上下文長度軸呈現出與H循環相反的趨勢：L=2和L=4之間的差距在短上下文時更大（1K時差4.61），隨著上下文增長而收窄（16K時差0.80）。這意味著高質量的情節性輸入在上下文短時最關鍵——此時模型能依賴的歷史資訊本來就少，情節記憶的質量直接決定成敗；而當上下文足夠長時，H模組積累了足夠多的鞏固知識，部分彌補了情節記憶質量不足的影響。

**H模組和L模組深度的影響。**在這部分，研究者分別把H模組和L模組的記憶塊數量從2增加到8，觀察效果。結論是兩者都從更多層數中受益，但方式不同。L模組加深的好處在短上下文最大，隨長度增加而減小（1K時差0.49，16K時差0.19）。H模組加深則相反，好處隨上下文增長而增大（1K時差0.51，8K時達到1.19，16K時0.74）。這兩條曲線共同指向一個統一的敘事：短上下文時，情節記憶的質量是瓶頸；長上下文時，將大量情節片段整合成連貫語義表示的能力是瓶頸。

贊助商廣告

**門控注意力的重要性。**消融實驗中單個組件影響最大的是門控機制：去掉門控後，困惑度從16.40跳到17.64，上升了1.24個點，是表格里最大的單項差距。研究團隊的解釋是，H模組和L模組處理的信號來自不同時間尺度，門控機制允許模型在寫入記憶時有選擇地抑制不相關的資訊，而沒有門控時，每一個輸入都無差別地影響記憶狀態，使得最終的記憶表示更難被解碼器利用。

**神經記憶vs.注意力的貢獻。**去掉神經記憶（困惑度上升0.43）比去掉注意力（困惑度上升0.13）的代價大得多。這印證了設計的初衷：注意力負責局部窗口內的精細檢索，神經記憶負責跨片段的持久狀態維護，兩者互補，但神經記憶對長程資訊傳遞的貢獻更根本。

說到底，Mela這項研究做的事情，用最簡單的話說就是：把神經科學裡研究了幾十年的"大腦怎麼整理記憶"的理論，翻譯成了一套可以用代碼實現、可以在真實語言模型里測試的架構設計。它不是在說"AI和人腦是一樣的"——論文本身也明確指出，它不主張自己的系統在功能上等價於生物記憶系統。但它提供了一個令人信服的論證：用那些支撐了人類複雜認知功能的神經科學原理作為架構設計的指導框架，是一條值得走的路。

三個規模的實驗都證明，在同等參數量下，帶有HMM的Mela確實比沒有記憶模組的標準Transformer更準確，而且在超出訓練長度的上下文上，差距會隨著長度的增加而迅速擴大。這對於那些需要處理長文檔、長對話或長代碼的應用場景來說，意味著在不增加訓練成本的前提下，可能獲得相當可觀的實用優勢。

對於AI研究領域，這項工作更深層的意義或許在於它提示了一種思路：在模型規模越來越大、訓練數據越來越多之外，架構設計本身仍然有很大的探索空間，而神經科學提供了一個豐富但尚未被充分挖掘的靈感庫。當然，目前Mela只在語言建模這一個任務上做了評測，它是否能在問答、推理、代碼生成等更多下游任務上帶來同樣的收益，還有待後續研究驗證。

贊助商廣告

---

Q&A

Q1：Mela模型和普通Transformer模型的最大區別是什麼？

A：普通Transformer在處理文字時需要同時"看著"所有歷史內容，計算量隨文字數量急速增長，超出訓練範圍就會出錯。Mela加入了一個模擬大腦記憶鞏固過程的HMM模組，它會持續把歷史資訊提煉成兩種記憶——保留細節的情節記憶和保留規律的語義記憶，並把它們作為"參考書"提供給語言解碼器，因此即使文字超出訓練長度，Mela也能繼續正常工作。

Q2：HMM里的L模組和H模組分別做什麼？

A：L模組（低層記憶模組）類似大腦海馬體，更新頻率高，專注保留豐富的情節性細節。H模組（高層記憶模組）類似大腦皮層，更新頻率低，每次等L模組完成多輪精煉後才處理，專注把情節細節提煉為更抽象的語義知識。最終的記憶輸出是兩者通過MLP融合的結果，模型可以根據當前需要靈活地偏重其中一方。

Q3：MemStack是什麼，為什麼要用它？

A：MemStack是一種把HMM遞歸過程中每一中間輪次產生的記憶狀態，分別注入解碼器對應早期層的方法。這樣解碼器不只得到最終鞏固好的記憶，還能看到記憶在不同程度鞏固階段的"中間形態"，類似大腦可能同時訪問不同抽象層次的記憶痕跡。消融實驗顯示，使用MemStack後困惑度下降約0.1個點，計算代價沒有增加，因為它不引入額外的token。