延世大學揭秘：為何AI記憶模型越用越「糊塗」？錯誤管理才是真正的關鍵

這項由韓國延世大學（Yonsei University）研究團隊完成的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.07755，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當我們談起人工智慧處理長篇文字或複雜序列時，有一個看似簡單卻讓研究者頭疼已久的問題：為什麼有些AI模型在短序列上表現得遊刃有餘，到了長序列卻開始犯糊塗？延世大學的研究團隊決定認真追究這個問題的根源，而他們得到的答案，顛覆了過去許多人對"AI記憶能力"的認知。

故事要從一個熟悉的場景說起。設想你正在玩一個傳話遊戲：第一個人把一段話悄悄告訴第二個人，第二個人告訴第三個人，以此類推。隨著傳遞的次數增多，原本清晰的資訊會逐漸變形，甚至面目全非。這種"偏差累積"的現象，正是這篇論文試圖解剖的核心問題——只不過研究的對象，是AI模型內部用於"記住當前狀態"的隱藏數字。

一、大家都在討論AI能不能記住，卻忽略了一個更重要的問題

過去幾年，學界對於循環神經網路（RNN）和狀態空間模型（SSM）這類AI架構的研究，幾乎都圍繞著一個核心問題：這個模型"理論上"能不能記住某種規則？換句話說，研究者們更關心的是"表達能力"——就好像問一個人是否具備講某種語言的潛力，而不是問他在疲憊、嘈雜的環境下實際上能把這門語言講多久而不出錯。

延世大學的研究團隊指出，這種研究視角存在一個盲區。一個模型即使理論上"能夠"表示某種狀態轉換規則，也未必能在反覆使用的過程中穩定地維持這些狀態。真正決定模型能不能長期穩定工作的，是它在運行過程中如何管理那些悄悄累積的"錯誤偏差"。研究團隊把這個維度稱為"錯誤控制"（error control），並將其定義為：模型內部用於區分不同狀態的方向上，偏差漂移的動態規律。

為了讓這個概念更直觀，可以借用一個導航的比喻。假設你開車從北京去上海，導航系統每隔一段時間更新一次你的位置。如果導航每次更新時都能精確校正位置，那麼不管路程多遠，你始終知道自己在哪裡。但如果導航系統每次更新都只是在上一次的基礎上"大致移動一下"，不做任何校正，那麼隨著行駛距離的增加，估計的位置和實際位置之間的差距會越來越大，最終完全迷失方向。錯誤控制，說的就是這個"位置校正"的能力。

贊助商廣告

二、兩類模型，一道看不見的分界線

研究團隊將實驗中涉及的所有循環模型按照一個關鍵特徵分成兩大類。第一類叫做"仿射模型"（affine models），包括當下流行的Mamba、Mamba-3、AUSSM等狀態空間模型，以及線性RNN和令牌門控RNN。這類模型的共同特點是：在更新內部狀態時，新狀態和舊狀態之間的關係是線性的——就像用一把固定的尺子量距離，不管量的是什麼東西，尺子的刻度始終一樣。

第二類叫做"狀態依賴模型"（state-dependent models），代表是經典的tanh RNN（Elman網路）和狀態門控RNN。這類模型的特點是：更新規則本身會隨當前狀態的不同而發生變化——就像一個有經驗的廚師，他調整火候的方式會根據鍋里食物的實際狀態靈活改變，而不是始終機械地設定同一個火力。

研究團隊用嚴格的數學方式證明了一個令人深思的結論：仿射模型在"保持狀態不變"這件事和"糾正狀態偏差"這件事之間，存在一個根本性的矛盾，二者無法同時做到。

三、為什麼仿射模型無法修正自身的偏差

要理解這個數學結論，可以繼續用導航的比喻。假設導航系統里儲存了六個目的地，每個目的地對應一個固定的坐標（就好比AI模型里每個"符號狀態"對應一個固定的隱藏向量，研究中稱之為"表示"）。當一段輸入序列走完一圈，最終回到原點時，導航系統必須把所有六個目的地的坐標都精確地恢復原樣——這就是所謂的"保持狀態"。

但問題來了：如果導航系統是線性的（即仿射的），那麼當它把所有目的地坐標都精確恢復原樣時，它對"各目的地之間的方向差異"這個關鍵維度的處理方式，只能是保持原樣——既不放大，也不縮小。換句話說，如果一開始導航因為某些噪音，把你的估計位置偏向了某個目的地的方向，經過一圈回來之後，這個偏差依然原封不動地存在。線性系統在"保持狀態"和"糾正偏差"這兩個目標之間，被迫選擇了前者，而自動放棄了後者。

贊助商廣告

這就是論文中核心定理（定理1）的直觀含義：一旦仿射回歸映射精確地保住了所有符號狀態，它在那些"用於區分不同狀態的方向"上的作用，就只能是恆等變換——既不收縮，也不擴張，偏差永遠留存。

與之形成對比的是狀態依賴模型。這類模型的更新規則本身取決於當前狀態，就像一位有經驗的船長，他在不同海況下會採用完全不同的操舵策略。正因如此，狀態依賴模型可以在固定住正確狀態的同時，對偏差方向施加一個"往回拉"的力量，讓錯誤隨時間逐漸消散，而不是積累。

四、仿射模型的有限地平線：偏差積累到什麼程度才會崩潰

既然仿射模型無法修正偏差，是不是意味著它們一開始就會失效？並非如此。研究團隊進一步推導出了描述仿射模型"能撐多久"的理論框架。

核心思路是這樣的：雖然偏差無法被消除，但只要"各狀態之間的距離"（即不同符號狀態對應的隱藏向量在空間中的間隔）依然足夠大，解碼器還是能夠準確分辨出當前模型處於哪個狀態。這就好像傳話遊戲中，即便每個人說話都有輕微口音，只要資訊沒有被扭曲到完全認不出來的程度，下一個人還是能猜出原意。

研究團隊定義了三個關鍵量來刻畫這個"撐多久"的過程。第一個是"類內擴散"（within-class spread），指的是同一個符號狀態對應的所有隱藏向量，彼此之間散開的程度——隨著運行步數增加，這些本應緊湊的向量雲會越來越鬆散，就像一群羊在草地上越走越散。第二個是"類間間距"（between-class separation），指的是不同符號狀態對應的向量中心之間的距離——這個值表示不同"羊群"之間的空曠地帶有多寬。第三個是兩者的比值，研究團隊稱之為"可區分度比率"（distinguishability ratio），記作q(t)。

當q(t)小於0.5時，解碼器依然能夠可靠地識別出當前狀態，因為各個羊群之間的間距還是大於單個羊群內部的散開程度。一旦q(t)超過0.5（或在實驗中觀測到接近1的閾值），各個羊群開始混在一起，解碼器就無法準確判斷了，模型的輸出正確率隨之崩潰。

贊助商廣告

根據推論（推論1），在偏差持續以某個固定速率累積的情況下，q(t)會隨時間線性增長，最終在某個時刻Tcross越過閾值，模型就此失效。研究團隊還給出了估算這個臨界時刻的公式：Tcross大約等於解碼器閾值乘以類間間距，再除以偏差累積速率。這意味著，初始類間間距越大、偏差累積越慢，模型能維持正確輸出的"有限地平線"就越長。

五、用真實實驗驗證理論：符號追蹤任務的全面測試

為了把理論落地，延世大學的研究團隊設計了一套經典的"群狀態追蹤"（group state-tracking）實驗。所謂群狀態追蹤，是指給模型輸入一串符號，要求它在每一步輸出當前的"狀態"，這個狀態是由所有歷史輸入按照某種固定規則（數學上稱為"群運算"）組合而成的。

研究選取了三種難度遞增的任務。第一種是奇偶性任務（C2），就是數一數輸入序列里"1"出現了多少次，如果是偶數次則輸出"偶"，奇數次則輸出"奇"——這是所有循環規則中最簡單的一種。第二種是六元循環群（C6），相當於模六計數，任意改變輸入順序不影響最終結果。第三種是三階對稱群（S3），包含對三個元素的所有可能排列，共六種狀態，關鍵在於它是"非阿貝爾群"——換句話說，輸入順序至關重要，先做操作A再做操作B，和先做B再做A，結果完全不同。這使得S3成為循環記憶任務中最有挑戰性的一種。

所有模型都在長度不超過60的序列上訓練，然後被要求在長度100至1000的序列上完成任務。評判標準是模型能在多長的序列上維持90%以上的準確率，這個值被稱為"最大通過長度"（max-passing length，mp）。

實驗結果呈現出非常清晰的兩極分化。狀態依賴模型（tanh RNN和狀態門控RNN）在所有三個任務、所有測試長度上幾乎都能維持1000步的準確率，遠超訓練長度。而仿射模型則參差不齊：有些在最簡單的C2任務上也無法通過基本訓練，有些能撐到200或300步，極少數在特定條件下能達到1000步，但在更複雜的S3任務上，幾乎所有仿射模型都掙扎明顯。

贊助商廣告

值得特別關注的是幾個"異類"案例。Negative Mamba在C2任務上雙層結構均可達到1000步，令牌門控RNN在C2單層和S3雙層上也達到了1000步。研究團隊並沒有因此就說這些仿射模型"其實也能做到"，而是進一步追問：它們究竟是靠什麼撐到1000步的？真的是具備了錯誤修正能力，還是另有隱情？

六、注射噪聲，看看誰能"自我癒合"

為了直接檢驗各模型的錯誤修正能力，研究團隊做了一個"噪聲注射"實驗，堪稱整篇論文中最直觀的部分。

做法是這樣的：讓模型正常運行到第20步，然後悄悄往它的隱藏狀態里注入一小段隨機噪聲（就好像在傳話遊戲進行到一半時，故意在某人耳邊額外說了幾個無意義的音節），之後繼續讓模型按正常輸入運行，同時監測"被污染的版本"和"乾淨的版本"之間的差距隨時間如何變化。

如果一個模型具備真正的錯誤修正能力，那麼這個差距應該會隨時間迅速縮小，最終消失——就像一個好的導航系統，哪怕位置被擾動了，也能在幾步之內把自己校正回正確軌跡。如果一個模型沒有錯誤修正能力，差距要麼保持不變，要麼越來越大。

結果非常符合理論預期。tanh RNN和狀態門控RNN的誤差在注射噪聲後的幾十步內就迅速縮小了好幾個數量級，差距幾乎降到零，展示出強大的自我癒合能力。Mamba、Mamba-3和Negative Mamba則通過它們固有的對角衰減機制（每步都有一個小於1的收縮因子）讓誤差緩慢下降，但這種收縮是全局性的、無差別的，並非針對"區分狀態的方向"的有針對性修正。令牌門控RNN則更極端，注射噪聲後誤差反而急劇放大，最終達到原來的數百億倍。這是因為它的權重矩陣譜半徑大於1，為了維持狀態可分性而放大了所有方向的差異，自然也包括噪聲。

七、可區分度比率的演化：飽和還是攀升

接下來，研究團隊直接測量了理論框架中最核心的量——可區分度比率q(t)隨時間的變化軌跡。

贊助商廣告

實驗結果呈現出兩種截然不同的仿射模型失效模式，與理論中的兩種情形完美對應。第一種叫做"飽和"（saturation）：以Mamba和Mamba-3為代表，這類模型從一開始就處於q(t)超過閾值的狀態——也就是說，它們的狀態雲從序列開始就已經混亂不堪，根本無法可靠追蹤。第二種叫做"攀升"（climb）：以Negative Mamba和令牌門控RNN為代表，這類模型初始時q(t)低於閾值，狀態還算清晰，但隨著步數增加，q(t)像一條緩緩上升的曲線，最終越過閾值，模型在此刻開始失效。

兩種失效模式的背後機制也有所不同。令牌門控RNN的"可區分度"和"類間距離"同時增長，兩者的比值上升得相對緩慢。Negative Mamba則依靠其對角過渡參數化直接約束類內擴散，因此攀升速度更慢，維持可讀狀態的時間更長。但無論哪種情況，理論預測的臨界時刻Tcross都比各自的最大通過長度mp提前出現，與"可讀性崩潰導致下游失效"的機制完全吻合。

與此同時，tanh RNN和狀態門控RNN的q(t)始終保持在0.5以下，從未越過解碼邊界——與理論預測的"狀態依賴模型能持續提供有選擇性的誤差收縮"完全一致。

八、追蹤偏差的方向：到底是哪裡出了問題

理論告訴我們，仿射模型無法修正的偏差，集中在"用於區分不同符號狀態的方向"上——研究團隊稱這個方向跨越的子空間為"符號子空間"（symbolic subspace）。為了驗證這一點，他們進一步把類內偏差分解成兩部分：落在符號子空間內的分量，以及落在垂直於符號子空間的方向上的分量。

對於Negative Mamba和令牌門控RNN，實驗觀察到一個有趣的動態過程：在運行初期，大部分偏差其實分布在與符號子空間垂直的方向上，而不是在符號子空間內部——這意味著雖然模型的內部狀態在"變亂"，但這種混亂暫時還不影響區分不同狀態的能力。然而，隨著步數接近各模型的最大通過長度，兩個方向上偏差的大小關係發生了逆轉：符號子空間內部的偏差開始追上並超越垂直方向上的偏差。這個關鍵的"翻轉時刻"與模型準確率開始崩潰的時間點高度吻合。

贊助商廣告

狀態依賴模型則展示出完全相反的圖景：它們的符號子空間內部偏差始終被壓制在極低水平，大部分偏差安靜地待在垂直方向上——那些方向對狀態識別沒有任何影響，所以即便存在一些混亂，也完全不影響模型的正確輸出。

這個發現進一步佐證了核心理論：仿射模型在符號子空間上無力修正偏差，最終讓偏差蔓延到關鍵方向，而狀態依賴模型能夠有選擇性地管理關鍵方向上的偏差，把干擾控制在無關痛癢的範圍之內。

九、臨界時刻Tcross真的能預測失效嗎？

理論的終極檢驗，是看它的定量預測是否準確。研究團隊在S3任務上收集了113個不同配置（包括不同超參數和隨機種子）的仿射模型，每個模型都有對應的最大通過長度mp和通過測量可區分度比率計算得到的臨界時刻Tcross。

結果顯示，Tcross和mp在對數坐標下呈現出強烈的線性相關關係，Pearson相關係數高達0.87，統計顯著性極高（p

值得一提的是，實驗中觀察到的實際失效時刻，比理論上最保守的"最近鄰解碼邊界"（q=0.5）對應的時刻略晚——更接近q=1的時刻，即類內擴散程度和類間距離完全相當時。這是因為實際訓練出來的解碼器比理論上最簡單的"最近鄰"規則更魯棒一些，能在稍微混亂一點的狀態下依然做出正確判斷。但兩個閾值的預測都受到同一個累積偏差機制的驅動，所以Tcross對二者都有很好的預測力。

十、修正能力來自哪裡：激活函數的解剖

在理論和實驗的基礎上，研究團隊還專門研究了"什麼樣的非線性變換真正帶來了錯誤修正能力"。他們固定了普通RNN的骨架結構，只改變激活函數，測試各種非線性操作對S3狀態追蹤的影響。

結果發現，關鍵不在於"是不是非線性的"，而在於"這個非線性操作能不能對不同的狀態方向產生不同的響應"。標準的逐元素激活函數（如tanh和ReLU）都能成功，因為它們的梯度矩陣是對角的，對角元素依賴於當前隱藏狀態，因此在不同狀態下可以對"區分狀態的方向"施加不同強度的收縮。逐對操作（max、min和GroupSort）同樣有效，因為它們本質上是狀態依賴的置換操作，能夠以不同方式混合各狀態下的關鍵方向。

贊助商廣告

然而，向量級別的歸一化操作（LayerNorm和球面投影）儘管也是非線性的，卻無法帶來真正的錯誤修正能力。原因在於它們的雅可比矩陣雖然依賴於整體狀態，但對不同方向的處理幾乎是各向同性的——就像一把能收縮任何方向的橡皮筋，而不是一把能有針對性地壓縮某個特定方向的彈簧夾。這種"全方向均勻收縮"的操作，本質上仍然無法提供符號子空間上有針對性的修正，因此行為類似於仿射模型。

這一發現意義深遠：它告訴我們，在設計具備長期記憶能力的循環模型時，我們應該關注的不是激活函數的"非線性程度"，而是它是否能根據當前狀態對不同的空間方向產生有差別的響應。

十一、C2是個特殊的"漏網之魚"

細心的讀者會發現，實驗結果中C2（奇偶性任務）是一個異類：多個仿射模型在這個任務上達到了1000步，而在C6和S3上卻表現不佳。難道說，仿射模型在C2上真的克服了錯誤控制問題？

研究團隊專門對此做出了解釋。C2是一個非常特殊的二元對稱群，它的結構允許仿射模型通過一種"中性振盪"的方式維持正確輸出：只要一個線性變換能把兩個狀態對應的向量精確互換，它自然構成一個周期為2的輪換，偏差在每步之後會翻轉符號，但只要偏差的幅度沒有超過解碼器的容忍邊界，輸出仍然是正確的。

這種機制在數學上等價於：仿射映射Fa滿足Fa(cg+δ)=c_{g·a}-δ以及Fa?(cg+δ)=cg+δ。偏差被"翻轉"了，但沒有被消除。對於C2這樣只有兩個狀態、決策邊界寬裕的任務，這種翻轉振盪完全不會導致解碼錯誤。但對於有更多狀態的C6或S3，每個狀態對應的決策區域要窄得多，同樣大小的偏差就可能越過邊界，導致錯誤識別。C2的成功因此是一個"特例利好"，而非真正的錯誤修正能力。

說到底，這項研究揭示的是一個被長期忽視的關鍵維度。過去大家熱衷於問"這個模型理論上能不能表示某種規則"，但延世大學的研究者問的是另一個問題："這個模型在反覆運行的過程中，能不能持續地把自己維持在正確軌道上？"二者的答案可以截然不同。一個在設計圖紙上看起來完美的導航系統，如果無法在行駛過程中持續校正位置偏差，最終也會帶你走進死胡同。而一個能夠隨時根據當前位置靈活調整校正策略的系統，才是真正可靠的長途伴侶。

贊助商廣告

這項研究對於未來AI長程記憶模型的設計提供了非常具體的方向：僅僅保證模型"理論上能表示目標規則"是不夠的，還必須確保模型的動態機制能夠持續對關鍵方向上的偏差施加收縮力。對於普通使用者而言，這意味著在選擇和評估AI系統時，不妨多關注它在長序列、長時程任務上的實際表現，而不僅僅是短序列上的亮眼成績——因為真正考驗一個記憶系統的，永遠是它在最長的那段路上能否不迷失方向。感興趣的讀者可以通過arXiv編號2605.07755找到完整的論文，深入了解這些理論推導和實驗細節。

Q&A

Q1：仿射模型和狀態依賴模型在狀態追蹤任務上的根本區別是什麼？

A：仿射模型在更新內部狀態時，新舊狀態之間的關係是固定線性的，這導致一旦它精確保住了各個符號狀態，就完全失去了糾正偏差的能力，偏差會隨時間不斷累積。狀態依賴模型的更新規則本身會隨當前狀態變化，因此可以在保住正確狀態的同時，對偏差方向施加有針對性的收縮力，讓錯誤隨時間消散而非積累。

Q2：可區分度比率q(t)是什麼，它如何預測模型失效？

A：可區分度比率q(t)是類內擴散（同一狀態下隱藏向量的散開程度）與類間間距（不同狀態中心之間的距離）的比值。當q(t)低於0.5時，解碼器還能可靠識別當前狀態；一旦q(t)越過閾值（實驗中接近1），各狀態的向量雲開始混疊，解碼器無法分辨，準確率隨之崩潰。研究發現，q(t)首次越過閾值的時刻Tcross與模型實際失效的最大通過長度之間存在極強的預測關係，相關係數高達0.87。

Q3：為什麼LayerNorm等歸一化操作無法帶來錯誤修正能力？

A：LayerNorm和球面投影雖然是非線性的，但它們對不同空間方向的處理近乎各向同性——無論哪個方向都受到相似程度的縮放，無法根據當前狀態對"區分符號狀態的關鍵方向"產生有針對性的收縮。真正有效的激活函數（如tanh、ReLU、max/min）能夠對不同方向產生狀態依賴的、差異化的響應，這才是帶來符號子空間上選擇性誤差修正的根本原因。

贊助商廣告