如果要你記住一整本厚厚的百科全書,你會怎麼做?你肯定不會死記硬背每一個字,而是會提取重點、歸納總結,把最重要的東西記在腦子裡,需要細節時再去翻書。人類大腦就是這樣聰明地管理資訊的。現在,字節Seed團隊的研究人員們成功地把這種智慧"移植"到了人工智慧身上,專門用來解決AI處理超長文本時遇到的"記憶力"難題。就像人腦中的海馬體能夠把短期記憶轉化為長期記憶一樣,人工海馬網路也能幫助AI模型既保持關鍵資訊,又不會因為記憶負擔過重而"卡殼"。

2025年10月8日,字節Seed團隊提出了人工海馬網路(AHN),AHN是一種模仿人腦記憶系統的AI架構。AHN通過滑動窗口保留最近資訊作為短期記憶,同時用類似海馬體的模塊將歷史資訊壓縮為固定大小的長期記憶。在處理128,000詞元的超長文本時,AHN將計算量降低40.5%,內存占用減少74.0%,性能反而提升33%。這項技術已開源,為AI高效處理長文本開闢了新路徑,在文檔理解、長時對話等領域具有廣泛應用前景。論文發表於arXiv。代碼和模型已經開源,可以在GitHub和HuggingFace上找到。
AI的"記憶力"困境:為什麼處理長文本這麼難
要理解這項研究的價值,我們先要搞清楚AI在處理長文本時到底遇到了什麼麻煩。現在最流行的AI語言模型,比如GPT、Claude這些,都是基於一種叫"Transformer"的架構。這種架構有個核心機制叫"注意力機制",你可以把它想像成一個超級認真的學生,在讀文章時會把每個詞都標註重點,並且記住它們之間的所有關係。
聽起來很棒,但問題就出在"記住所有關係"這一點上。想像你在讀一本偵探小說,如果要記住每個人物在每一頁中說過的每一句話,以及這些話之間的所有聯繫,你的大腦很快就會爆炸。AI模型也是一樣。當文章越來越長時,這種"記住一切"的策略會導致兩個嚴重問題:一是需要的存儲空間會隨著文章長度線性增長,就像你的書架很快就會被塞滿;二是處理這些資訊的計算量會以平方級增長,也就是說文章長度翻倍,計算量要增加四倍。
有人可能會說,那我們用另一種方法啊,比如早期的循環神經網路(RNN)。RNN就像一個非常節省空間的圖書管理員,它不會把所有書都擺出來,而是把資訊不斷壓縮總結成一個固定大小的"摘要"。這樣確實很省空間,處理速度也很穩定,不管文章多長,占用的內存都是一樣的。但這種方法有個致命缺陷:在不斷壓縮的過程中,很多重要細節會丟失。就好比你把一本厚厚的小說總結成一句話,雖然節省了空間,但精彩的情節和細節都沒了。
這就是AI領域長期面臨的一個根本矛盾:要麼像Transformer那樣保留所有細節但代價昂貴,要麼像RNN那樣高效節省但會丟失資訊。科學家們一直在尋找兩全其美的辦法,而字節團隊的這項研究,正是在這個方向上取得的重要突破。
向人腦學習:雙重記憶系統的智慧
研究團隊的靈感來自人類自己的大腦。在認知科學領域,有一個著名的理論叫"多存儲模型"(Multi-Store Model),最早由心理學家阿特金森和希夫林在1968年提出。這個理論認為,人的記憶系統不是單一的,而是分為不同的"倉庫"。
最前面的是感覺記憶,就像你眼前一閃而過的畫面,只能保持幾秒鐘。接著是短期記憶(也叫工作記憶),就像你正在思考的內容,可以保持幾分鐘到幾小時,但容量有限。而長期記憶就像一個巨大的檔案館,可以存儲幾乎無限的資訊,而且能保持很長時間,從幾天到一輩子都有可能。關鍵是,這些記憶系統之間可以互相轉化。大腦中有個叫"海馬體"的結構,它的重要功能之一就是把短期記憶轉化為長期記憶,這個過程叫"記憶鞏固"。
舉個例子,假設你正在學習準備考試。你剛讀完一頁書的內容,這些資訊首先進入你的短期記憶,你能回憶起剛才讀的內容,但如果不複習,過幾個小時就會忘記大部分。但是如果你反覆閱讀、理解、聯繫其他知識,海馬體就會把這些資訊"打包整理",轉化為長期記憶存儲在大腦皮層中。這樣即使過了很久,你依然能想起這些內容的核心要點,雖然可能記不清每一個細節。
人腦的這種記憶系統非常高效。大腦的體積在人的一生中基本保持不變(成年後甚至會略微縮小),但我們卻能持續學習和記憶新東西。這是因為大腦不是簡單地"堆積"資訊,而是通過壓縮、整合、關聯等方式,把資訊存儲在一個相對固定的空間裡。就像一個聰明的圖書管理員,不是簡單地把新書往書架上塞,而是會重新分類、整理、歸檔,讓有限的空間容納更多的知識。
字節的研究團隊正是受到這種雙重記憶系統的啟發,設計出了人工海馬網路。他們想:既然人腦能用這種方式高效地處理資訊,為什麼AI不能呢?
人工海馬網路:雙重記憶的完美結合
那麼,人工海馬網路到底是怎麼工作的呢?讓我用一個更貼近日常生活的比喻來解釋。
想像你在管理一個小型圖書館。圖書館有一個明亮的閱覽室,那裡的書架上擺放著最近讀者頻繁借閱的書籍,這些書隨手可得,讀者可以立刻翻閱,不會遺漏任何一頁。這就相當於人工海馬網路中的"短期記憶",在技術上叫做"滑動窗口注意力"。這個窗口裡保存的是最近的文本內容,完全無損,每一個詞都清清楚楚地保留著。
但是閱覽室空間有限,不可能把所有的書都擺在那裡。那些暫時不那麼常用的書,你會怎麼處理呢?你會讓一位經驗豐富的圖書管理員把它們整理歸檔到圖書館的大書庫里。這位管理員不會簡單地把書塞進去就完事,而是會仔細閱讀、分類、提取關鍵資訊,然後建立一個詳細的索引系統。這樣,雖然書不在閱覽室的開架上了,但通過管理員的整理歸檔,你依然能快速找到需要的資訊。這就是"人工海馬網路"在做的事情——它扮演著那位圖書管理員的角色,把滑出窗口的舊資訊壓縮整理成一個固定大小的"記憶狀態"。

具體來說,這個系統是這樣運作的。當一段新文本進來時,最近的一部分(比如最後的32,000個詞元)會被完整地保留在"滑動窗口"里,就像擺在閱覽室開架上的書。但隨著新內容不斷湧入,更早的內容會逐漸被"擠出"窗口。這些被擠出的內容不會被簡單地丟棄,而是會被送到人工海馬網路進行處理。
人工海馬網路會像一位經驗豐富的圖書管理員那樣,讀取這些即將被"歸檔"的內容,理解它們的含義,提取重要資訊,然後更新一個叫做"壓縮記憶狀態"的東西。這個記憶狀態就像一個內容豐富但體積固定的檔案摘要,無論外面的文本有多長,這個摘要的大小都保持不變。
當AI需要生成下一個詞或回答問題時,它會同時查閱兩部分記憶:一是閱覽室里那些完整保留的最近內容(滑動窗口),二是圖書管理員整理的那份檔案摘要(壓縮記憶狀態)。這樣一來,AI既能獲得最新資訊的精確細節,又能掌握歷史資訊的核心要點,而不需要把所有內容都原封不動地記住。
這個方法的巧妙之處在於,它實現了一種動態平衡。對於剛剛看到的內容,系統保持完全的記憶精度;而對於較早的內容,系統會智能地壓縮,只保留最關鍵的資訊。這種策略既保證了處理效率,又最大限度地減少了資訊損失。
為了實現這個"圖書管理員",研究團隊嘗試了三種不同的技術:Mamba2、DeltaNet和GatedDeltaNet。這三種技術都屬於現代的循環神經網路家族,它們的共同特點是能夠高效地將資訊壓縮成固定大小的狀態,而且支持快速的並行訓練。研究團隊把這三種技術分別應用到人工海馬網路中,創建了三個變體:AHN-Mamba2、AHN-DN(DeltaNet)和AHN-GDN(GatedDeltaNet)。實驗表明,這三個變體都表現出色,其中AHN-GDN在多數任務上略勝一籌。
讓AI學徒向大師學習:巧妙的訓練方法
有了這個雙重記憶系統的設計,下一個問題是:怎麼讓這個"圖書管理員"(人工海馬網路)學會正確地歸檔資訊呢?研究團隊採用了一種非常聰明的訓練方法,叫做"自蒸餾"(Self-Distillation)。
自蒸餾這個名字聽起來很玄乎,但原理其實很簡單,就像是"讓學徒跟著大師學習"。具體來說,研究團隊首先選擇了一個已經訓練得很好的大型語言模型作為"老師"(比如Qwen2.5系列模型)。這個老師模型使用完整的注意力機制,能夠看到所有的歷史文本,所以它的回答非常準確。
然後,研究團隊創建了一個"學生"模型,這個學生模型就是配備了人工海馬網路的版本。學生模型看不到所有的歷史文本,它只能看到滑動窗口裡的最近內容,以及人工海馬網路提供的壓縮記憶摘要。學生模型的任務是:在這種受限的條件下,儘可能準確地模仿老師的回答。
這就好比一個學徒圖書管理員在跟著大師學習。大師能夠隨時查閱所有的書籍和檔案,給出最準確的答案。而學徒只能依靠有限的資料和自己整理的筆記本,但他必須學會如何整理筆記,才能給出和大師一樣準確的答案。通過不斷練習,學徒會逐漸掌握什麼資訊應該記在筆記本里,怎樣組織這些資訊才能在需要時快速找到答案。
在技術層面,這個訓練過程是通過最小化"KL散度"(Kullback-Leibler divergence)來實現的。KL散度是一個衡量兩個概率分布差異的指標,簡單說就是衡量老師和學生的回答有多不一樣。訓練的目標就是讓學生的回答儘可能接近老師,也就是讓這個差異儘可能小。
這種訓練方法的妙處在於它的高效性。研究團隊只需要訓練新增的人工海馬網路部分,原有的語言模型參數全部凍結不動。這就像你不需要重新培訓一個圖書管理員的所有技能,只需要教會他如何整理歸檔新書。這大大降低了訓練成本,使得在普通的計算資源上就能完成訓練。
而且,為了讓人工海馬網路學到更通用的壓縮策略,研究團隊在訓練時還加入了隨機化設計。他們會隨機改變滑動窗口的大小,以及人工海馬網路開始工作的位置。這就好比讓學徒在不同的工作場景下練習:有時候閱覽室大一點,有時候小一點;有時候從第100本書開始歸檔,有時候從第200本開始。通過這種多樣化的訓練,人工海馬網路學會了在各種情況下都能有效地壓縮資訊,而不是只適應某一種特定的場景。
實戰檢驗:在各種任務中大顯身手
理論聽起來不錯,但真正的考驗在於實際表現。研究團隊在多個長文本處理任務上測試了人工海馬網路的能力,結果令人印象深刻。

首先來看計算效率和內存占用。研究團隊用一個57,000個詞元的長文本(來自PG19數據集,一個專門用於測試長文本理解的書籍集合)做了測試。結果顯示,原本的Qwen2.5-3B模型在處理超過它訓練時的上下文長度(32,000個詞元)後,困惑度(衡量模型預測準確性的指標,越低越好)急劇上升,說明模型已經"懵了"。而配備了人工海馬網路的版本,困惑度始終保持在低位,穩定流暢。同時,原版模型的GPU內存占用隨著文本長度線性增長,而人工海馬網路版本的內存占用在超過窗口大小後就基本保持不變了,就像我們前面說的那個圖書館,閱覽室滿了之後,新書都歸檔到固定大小的檔案系統里。
更重要的是在實際任務上的表現。研究團隊在LV-Eval和InfiniteBench這兩個專門測試長文本理解能力的基準上進行了全面評估。這些基準包含了各種需要理解超長文本的任務,比如從128,000個詞元的文檔中查找特定資訊、回答需要跨越整個文檔的多跳問題等。

在LV-Eval的128,000詞元測試集上,以Qwen2.5-3B模型為例,使用普通滑動窗口注意力(配合注意力錨點技術)的基線方法得分為4.59分。而配備了人工海馬網路後,得分提升到5.88分(使用AHN-GDN變體)。更令人驚訝的是,這個得分甚至超過了使用完整注意力機制的原版模型(4.41分)。也就是說,人工海馬網路不僅更高效,性能還更好。
為什麼會這樣呢?研究團隊分析認為,這可能是因為滑動窗口機制實際上起到了一種"去噪"作用。完整注意力機制雖然保留了所有資訊,但在超長文本中,很多資訊其實是噪音或不相關的內容。而滑動窗口配合人工海馬網路的方案,相當於強制模型聚焦於最近的關鍵資訊,並從歷史中提取最相關的要點,反而避免了被無關資訊干擾。
這種優勢在更大的模型上也得到了驗證。在Qwen2.5-7B和14B模型上,人工海馬網路同樣帶來了顯著的性能提升。比如在7B模型上,InfiniteBench的平均得分從13.16分提升到16.93分(使用AHN-GDN),提升了近4分。而在整個過程中,計算量和內存占用都大幅降低,在128,000詞元的場景下,計算量降低約40%,內存占用降低約74%。
研究團隊還做了一個有趣的可視化實驗,來探究人工海馬網路到底"記住"了什麼。他們通過分析訓練時的梯度(可以理解為模型學習信號的強度),發現人工海馬網路會選擇性地保留某些資訊。在一個數學問題的例子中,人工海馬網路傾向於重點保留數學符號和數字,而對代詞和特殊標記關注較少。這說明它確實學會了識別和保留重要資訊,而不是無差別地壓縮所有內容。
當然,任何技術都不是完美的。研究團隊也坦誠地指出了人工海馬網路的局限性。由於壓縮記憶狀態的大小是固定的,在需要精確回憶大量歷史細節的任務上,人工海馬網路的表現不如完整保留所有資訊的方法。比如在RULER基準測試中的"針在草垛里"(Needle-in-a-Haystack)系列任務上,需要從超長文本中精確找到某個隱藏的事實,這時人工海馬網路的準確率就明顯低於完整注意力。這就像我們前面的圖書館比喻,如果你需要查找某本已經歸檔的書的某一頁的某一行,僅憑管理員的摘要是不夠的,你需要把原書找出來。
但研究團隊也指出,這種局限性在實際應用中可能沒有想像的那麼嚴重。因為在大多數實際場景下,我們需要的是對長文本的理解、推理和總結,而不是逐字逐句的精確記憶。就像你在工作中閱讀一份長報告,你需要的是抓住要點、理解趨勢、得出結論,而不是記住每一個數字和每一句話。對於這類任務,人工海馬網路展現出了強大的能力。
技術細節:三位"圖書管理員"的不同風格
前面我們把人工海馬網路比作圖書管理員,但實際上研究團隊實現了三種不同"風格"的管理員,它們使用的具體方法略有不同。
第一種是基於Mamba2的AHN-Mamba2。Mamba2是一種現代的循環神經網路架構,它使用一種叫"選擇性狀態空間模型"的技術。可以把它想像成一個特別會"遺忘"的管理員——他會根據新來的內容,智能地決定哪些舊資訊應該逐漸淡忘,哪些應該保持鮮活。技術上,它通過一個"遺忘門"(由參數Δ和A控制)來實現這一點,舊的記憶狀態會按指數衰減,同時新資訊被編碼進來。
第二種是基於DeltaNet的AHN-DN。DeltaNet使用了一種叫"delta規則"的更新機制,這是從神經科學中學習的規律啟發而來的。這位管理員的工作方式更像是不斷"修正"他的筆記本。每次新內容進來,他不僅會添加新資訊,還會根據新內容與已有筆記的關聯程度,調整筆記的組織方式。技術上,它通過計算新鍵(key)與舊鍵的內積來決定如何修正記憶狀態。
第三種是基於GatedDeltaNet的AHN-GDN,這是DeltaNet的增強版本。這位管理員更加智能,他不僅會修正筆記,還會根據內容的重要性分配不同的注意力。有些資訊他會重點標記,有些則只是簡單記錄。技術上,它引入了"門控"機制(由參數α、β、γ控制),能夠動態地決定資訊的重要性和保留程度。實驗表明,AHN-GDN在大多數任務上表現最好,可能是因為這種門控機制讓它更靈活地適應不同類型的內容。
這三種實現雖然細節不同,但核心思想是一致的:用循環的方式將流出窗口的資訊壓縮成固定大小的狀態,並在需要時與窗口內的無損資訊結合使用。研究團隊的實驗顯示,三種實現都有效,而且都能與滑動窗口注意力無縫配合,這證明了人工海馬網路這個概念框架的通用性。
值得一提的是,研究團隊還提供了詳細的複雜度分析。他們用數學證明,配備了人工海馬網路後,模型在序列長度L上的計算複雜度從O(L²)(完整注意力)降低到O(W×L)(其中W是窗口大小),內存複雜度從O(L)降到O(W)。這意味著當處理非常長的文本時,效率提升會非常顯著。比如當L=128,000而W=32,000時,理論上計算量能減少約75%,內存占用減少約75%,這與實驗結果基本一致。
至頂AI實驗室洞見
如果AI能夠高效地處理超長文本,會給我們的生活帶來什麼變化?
首先是長文檔理解。律師需要閱讀數百頁的法律文件,醫生需要查閱患者的完整病歷,研究人員需要綜述大量的學術文獻。現在的AI在處理這類任務時往往力不從心,要麼截斷文檔只看一部分,要麼需要消耗大量計算資源。有了人工海馬網路,AI可以像人類專家那樣,既保持對最新資訊的清晰記憶,又能把握整個文檔的脈絡和要點。
其次是對話系統。想像你和一個AI助手進行一場持續數小時甚至數天的對話,討論一個複雜的項目。傳統的AI可能會"忘記"你們早期聊過的內容,或者因為上下文太長而反應遲緩。配備了人工海馬網路的AI可以流暢地維持長時間對話,既記得剛才說了什麼,也能回顧你們之前討論的重點,就像和一個真正理解你的人交流。
還有實時資訊處理。比如實時分析影片流、監控社交媒體動態、處理物聯網設備的數據流。這些場景都需要AI持續處理源源不斷的資訊,既要關注最新的事件,又不能忘記歷史趨勢。人工海馬網路的固定內存占用特性使得它特別適合這類"永遠在線"的應用。
這種技術對於資源受限的場景尤其有價值。比如在手機、物聯網設備等邊緣設備上部署AI,內存和計算能力都很有限。人工海馬網路能讓這些設備也擁有處理長上下文的能力,而不需要把數據傳到雲端處理,既保護了隱私,又降低了延遲。
當然AHN還有改進的空間。當前的實現採用的是參數高效的訓練方式(只訓練人工海馬網路部分),性能受限於基礎模型的能力。如果進行全參數訓練,可能會取得更好的效果,但代價是需要更多的計算資源。另外,如何更好地平衡"記憶精度"和"效率",如何讓模型自己學會什麼資訊應該完整保留、什麼資訊可以壓縮,這些都是值得進一步探索的方向。
這項研究的思路回歸本源:向人類大腦學習,將認知科學的智慧應用到人工智慧中。人腦的記憶系統經過數百萬年的進化,已經達到了近乎完美的效率和靈活性。當我們真正理解並模仿這種機制時,AI就能向著更像人、更懂人的方向邁進一大步。
或許有一天,AI不僅能像人類一樣思考,還能像人類一樣記憶,既不忘記重要的事情,也不會被瑣碎的細節壓垮。而字節團隊的這項研究,正是朝著這個目標邁出的堅實一步。
END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:人工海馬網路AHN會不會讓AI變得和人腦一樣聰明?
A:人工海馬網路只是模仿了人腦記憶系統中將短期記憶轉化為長期記憶的過程。它主要解決的是AI處理超長文本時的效率問題,讓AI能夠在有限的計算資源下理解和記住更多資訊。但AI的"聰明"涉及很多其他方面,比如推理能力、創造力、常識理解等,這些都還需要其他技術的支持。所以說,這項技術讓AI在某個特定方面更接近人腦,但距離真正的人類智能還有很長的路要走。
Q2:使用人工海馬網路AHN會丟失重要資訊嗎?
A:會有一定程度的資訊損失,但這是設計上的權衡。人工海馬網路會把滑出窗口的歷史資訊壓縮成固定大小的"摘要",所以如果你需要回憶某個很久之前的精確細節,它可能記不清。但在實際應用中,大多數任務需要的是對長文本的整體理解和要點把握,而不是逐字逐句的完美記憶。對於這類任務,人工海馬網路表現很好,甚至比保留所有資訊的方法還要好,因為它能過濾噪音、聚焦重點。研究團隊也提到,未來可以通過更智能的記憶管理策略,讓模型自己決定哪些資訊需要完整保留。
Q3:普通人能用上AHN嗎?
A:目前這項技術主要面向AI研究者和開發者,研究團隊已經在GitHub和HuggingFace上開源了代碼和模型。如果你是開發者,可以直接使用這些資源來改進自己的AI應用。對於普通用戶來說,雖然不能直接"使用"這項技術,但未來很可能會在各種AI產品中間接受益。比如更流暢的AI助手、能理解長文檔的智能工具、更高效的對話系統等。隨著技術的成熟和普及,我們會在日常使用的AI應用中看到人工海馬網路或類似技術的影子,只不過它們會隱藏在後台默默工作。






