這項由奧地利約翰內斯克卜勒大學林茨分校(Johannes Kepler University Linz)與NXAI GmbH聯合開展的研究,於2026年6月發表,論文編號為arXiv:2606.12364v1,收錄於電腦學習領域(cs.LG)。有興趣深入了解的讀者可以通過該編號查詢完整論文。
**當AI模型越來越"貴"時,有沒有更划算的替代品?**
現如今,幾乎所有你能叫得出名字的AI系統——無論是幫你寫文章的ChatGPT、幫你看代碼的Copilot,還是幫你預測股價的智能系統——背後都有一種叫做"Transformer"的核心架構在撐場。這種架構在處理語言、代碼、時間序列等複雜數據時表現出色,但它有一個致命弱點:隨著輸入內容越來越長,計算量會像氣球一樣急劇膨脹,呈"平方級別"增長。換句話說,如果輸入長度翻倍,計算量會變成原來的四倍;長度增加到十倍,計算量則暴增到一百倍。這就好比你雇了一個管家,他每多做一件事就需要和家裡所有人都打一遍招呼才能繼續工作——家裡人越多,效率就越低。
正因如此,研究人員一直在尋找一種"更經濟"的替代方案,希望找到某種能以線性增長(即長度翻倍、計算量也只翻倍)方式處理序列的架構,同時又不犧牲性能。這類架構被統稱為"次二次方架構"(subquadratic architectures),意思就是計算量的增長速度比平方慢。
目前市面上有三位主要競爭者:一是來自約翰內斯克卜勒大學團隊的**xLSTM**,它是經典LSTM網路的現代進化版;二是在多個頂級商業模型中廣泛應用的**Mamba-2**;三是同樣在多個混合模型中嶄露頭角的**Gated DeltaNet**。三者都聲稱自己是高效、強大的序列處理利器,但此前從未有人將這三者放在同一個擂台上進行公平、系統的比較。
這篇論文的研究團隊做的正是這件事——他們在代碼預訓練、代碼蒸餾、以及時間序列預測這三個充滿挑戰的真實任務上,對這三位競爭者進行了詳盡的"三國演義"式比較,最終不僅得出了實踐上的勝者,還深入剖析了勝者取勝的根本原因,並通過精心設計的合成實驗加以驗證。
---
一、三位競爭者:它們到底是什麼,有什麼區別?
要理解這場比較,首先需要搞清楚這三種架構的工作方式。可以用"記筆記"這個日常場景來理解它們各自的記憶機制。
普通Transformer的工作方式是:每處理一段新內容,它都會回頭把所有歷史內容看一遍,然後綜合判斷當前內容的意義。這就好比一個學生每做一道題,都要把之前所有題目和答案重新翻一遍——非常全面,但極其費時。
xLSTM的設計思路則不同。它脫胎於上世紀九十年代誕生的LSTM網路(長短期記憶網路),但做了大量現代化改造。它擁有兩種組件:一種叫做"矩陣狀態線性注意力層"(記為mLSTM或xLSTM[1:0]),負責以矩陣的形式積累和檢索記憶;另一種叫做"非線性遞歸層"(記為sLSTM或xLSTM[0:1]),負責進行有狀態的、依賴歷史的更新。兩種組件按照一定比例混合使用,例如xLSTM[7:1]表示7個線性注意力層配1個遞歸層,xLSTM[3:1]表示3個線性注意力層配1個遞歸層。xLSTM的一個關鍵設計特色是它的"指數輸入門"——在歸一化處理後,這個門的行為類似於在時間維度上做softmax,讓模型能夠有選擇地降低或覆蓋舊資訊的權重,當新資訊更重要時,舊資訊就會被"壓下去"。
Mamba-2的設計靈感來自狀態空間模型,它的核心在於把輸入信號的寫入強度和遺忘強度通過同一組參數綁定在一起。用記筆記來類比的話,Mamba-2就像一個筆記本,寫新內容和擦除舊內容的橡皮是連在一起的——你拿起筆寫多用力,橡皮就自動擦多少,兩者無法獨立控制。這種"綁定"設計使得Mamba-2在靈活性上有所損失,它本質上類似於GRU(門控循環單元),而學術界早就發現GRU在需要"計數"的任務上存在固有缺陷。
Gated DeltaNet則是一種融合設計,它結合了"Delta規則"(快速權重機制)和Mamba-2的狀態轉換動力學。它的獨特之處在於狀態更新時會顯式地執行"覆寫"操作:通過一個正交投影矩陣,將狀態中與當前"鍵"方向一致的分量完全清除,再寫入新值。用記筆記來類比,這相當於:每次寫新內容,都會先把與之相關的舊內容徹底抹掉再重寫。這種機制讓Gated DeltaNet在"精準檢索、替換記憶"類任務上表現突出,但也埋下了一個隱患——當你需要的不是替換記憶而是"累積計數"時,這種總是覆蓋的特性就會成為障礙。
用一個統一的記憶模型來理解三者的差異:xLSTM是一個擁有獨立"寫入旋鈕"和"遺忘旋鈕"的記事本,兩個旋鈕互不干擾,靈活度最高;Mamba-2是寫入和遺忘旋鈕被一根軸聯動的記事本,調一個另一個也跟著動;Gated DeltaNet則是一個帶有"自動刮除舊內容再重寫"功能的記事本,換新快,但累積難。
---
二、第一輪比較:在代碼世界裡誰更聰明?
研究團隊選擇代碼作為第一個測試場景,理由非常充分。代碼是一種極其"有結構"的語言:它既有類似自然語言的詞彙,又有嚴格的語法規則、變量作用域、函數調用關係和執行邏輯。當你在代碼中定義了一個變量`x`,三百行之後還要用到它,模型就必須記住並正確追蹤這個狀態——這對記憶和狀態管理能力的要求遠高於一般的文本預測。
研究團隊在這一實驗中訓練了參數量為4億(400M)的跨層混合語言模型,使用了工業界通行的lm-engine框架,並集成了三種次二次方序列算子以及少量標準自注意力層(放在第6、14、22層)。所有模型的總層數相同(24層),只有核心序列算子不同,確保比較的公平性。訓練數據來自NVIDIA發布的Nemotron-CC-Code-v1代碼數據集,分別在200億(20B)和1000億(100B)詞符(token)規模下進行訓練,另外還有一個將代碼數據與通用教育文本(FineWeb-Edu)混合的配置。
評估標準使用了業界通行的HumanEval代碼生成基準,具體指標是pass@k——即讓模型嘗試k次,看有沒有一次能通過測試用例。k取2、8、16、64四個值,k越大意味著給模型的機會越多,也越能反映模型的真實能力上限。
結果相當清晰。在所有訓練配置下,xLSTM[7:1]在每一個pass@k指標上都名列第一。以pass@64為例,在20B代碼詞符訓練後,xLSTM[7:1]比排名第二的架構(Gated DeltaNet)高出1.43個百分點;在100B詞符訓練後,領先幅度為0.90個百分點;在代碼與通用文本混合訓練後,領先幅度擴大到1.81個百分點。在純代碼訓練設置下,排名第二的始終是Gated DeltaNet;在混合數據設置下,排名第二的則換成了Mamba-2。
研究團隊還額外測試了xLSTM家族內部不同層比例的影響,包括xLSTM[1:0](純線性注意力)和xLSTM[11:1](更多線性注意力層)。結果顯示xLSTM[7:1]是最優配置,單獨的線性注意力層xLSTM[1:0]性能不如帶有少量遞歸層的混合版本,這為後續的理論分析埋下了重要伏筆。
除了代碼生成,研究團隊還在五個通用推理和常識理解基準(HellaSwag、PIQA、ARC-Easy、ARC-Challenge、WinoGrande)上進行了對比。在這些任務上,xLSTM[7:1]同樣在三種訓練配置下均取得最高的平均分,但領先幅度相對較小——在20B和100B代碼詞符下領先不足0.1個百分點,在混合數據下領先約0.5個百分點。這個對比非常有意思:通用推理任務上差距很小,但代碼生成任務上差距明顯更大。這說明架構之間的本質差異在結構化、依賴關係複雜的任務上才會充分暴露出來,通用語言理解任務"太簡單了",不足以區分高下。
---
三、第二輪比較:能不能"偷師"一個現成的老師?
第一輪比較是從零訓練,第二輪則測試了一種更聰明的方法——知識蒸餾(knowledge distillation),或者叫模型線性化(linearization)。
知識蒸餾的核心思想是:與其從頭訓練一個次二次方模型,不如找一個已經訓練好的強大Transformer模型作為"老師",然後讓新模型("學生")儘量模仿老師的行為,把老師的能力遷移過來。這就好比一個廚師學徒不用從基礎開始學,而是直接跟著米其林主廚學,從主廚的示範中吸取精華,快速上手。
研究團隊使用阿里雲開源的Qwen3-4B-Instruct作為老師模型(參數量40億),然後分別將xLSTM[1:0]和Gated DeltaNet替換進去作為學生的核心算子。之所以只比較這兩種而沒有包括Mamba-2,是因為蒸餾框架要求候選算子能直接復用老師模型中的查詢(Q)、鍵(K)、值(V)投影權重來初始化,而Mamba-2的門控參數與注意力權重之間沒有直接的對應關係,無法做到這一點。
具體的混合塊結構是這樣設計的:每個原始多頭注意力塊都被一個"並聯"的混合塊取代,混合塊里同時跑著線性注意力算子和一個窗口為512的滑動窗口注意力,還引入了4個"注意力錨點"(attention sinks)來穩定長序列處理,最後通過一個數據相關的sigmoid門來融合兩條路徑的輸出。訓練分兩個階段:第一階段做隱層對齊(用均方誤差讓學生每層的輸出儘量接近老師的對應層輸出);第二階段做稀疏知識蒸餾(結合下一詞預測的交叉熵損失和來自老師的Top-256詞彙分布KL散度,權重比例為0.9:0.1),共訓練10000步,序列長度為4096。
用於評估的代碼基準比第一輪更難:包括HumanEval、HumanEval+、MBPP(另一套Python代碼生成數據集)以及MBPP+,均以pass@1(只嘗試一次)為指標。結果同樣支持xLSTM。在四個代碼基準上,xLSTM[1:0]在三個上領先,僅在MBPP+上以0.014的微弱差距落後於Gated DeltaNet(0.788 vs 0.802)。平均而言,xLSTM[1:0]得到0.768分,默認Gated DeltaNet得到0.755分,帶負特徵值的Gated DeltaNet[-1,1]變體得到0.756分。
這個結果意義重大:它說明xLSTM在代碼任務上的優勢不僅來自其混合架構中的遞歸層(sLSTM),單純的線性注意力組件(mLSTM)本身就已經是一個比Gated DeltaNet更強的"插件式"替換算子。
研究團隊還順帶做了數學題蒸餾的實驗,使用Nemotron-Math-v2數據集,評估GSM8K(小學數學應用題)、MATH-500(高中競賽數學)以及AIME 2024(美國高中數學邀請賽)。在這組實驗中,xLSTM[1:0]在GSM8K(0.876 vs 0.842)和AIME pass@8(0.333 vs 0.300)上均領先,而Gated DeltaNet在MATH-500上略好(0.732 vs 0.726)。三個指標的平均分xLSTM[1:0]為0.645,Gated DeltaNet為0.625。這進一步鞏固了xLSTM作為插件式矩陣狀態算子的綜合競爭力。
---
四、第三輪比較:換個完全不同的戰場——時間序列預測
代碼預訓練和蒸餾兩輪都以語言為核心,第三輪測試則切換到完全不同的應用場景:時間序列基礎模型預訓練。
時間序列數據與語言數據有著截然不同的特性:它處理的是連續數值(而非離散詞彙),涉及來自氣象、金融、能源、工業等多個異質領域的數據,而且不同序列的採樣頻率、時間跨度、波動模式各不相同。要在這樣多樣化的數據上訓練一個通用的"時間序列基礎模型",對序列處理能力的要求相當苛刻——模型必須能從長時歷史中識別出複雜的動態規律,哪怕這些規律的本質狀態是隱藏不可見的(就好比只能看到洛倫茲混沌系統的輸出軌跡,而看不到它的內部狀態一樣)。
研究團隊完全復用了TiRex時間序列基礎模型的預訓練框架(包括相同的數據語料、分塊方案、優化器和預測頭),唯一改變的是序列混合算子,從而確保比較的純粹性。預訓練數據語料約包含4750萬條時間序列,涵蓋來自Chronos預訓練語料的約3000萬條、來自GIFT-Eval預訓練語料的約250萬條,以及通過KernelSynth合成生成的約1500萬條,並已清洗確保與評估集零重疊。
實驗在五個參數規模下展開:1M、4M、10M、40M和80M參數,每個規模下的寬度(隱層維度)和深度(層數)都根據參數總量匹配調整。評估使用GIFT-Eval基準,這是一個覆蓋多個領域和頻率的異質預測基準,報告指標為MASE(平均絕對比例誤差)和CRPS(連續排名概率得分),兩者均以幾何平均值聚合,越低越好。
在1M到40M參數規模範圍內,xLSTM[3:1]在MASE和CRPS兩個指標上均排名第一,領先優勢在小規模時最為明顯。以10M參數為例,xLSTM[3:1]達到MASE=0.733、CRPS=0.508,而排名第二的Mamba-2為0.767和0.525——差距相當顯著。隨著參數規模增加到80M,三者逐漸趨同:xLSTM[3:1]和Mamba-2在MASE上持平(均為0.715),而Mamba-2在CRPS上以微弱優勢(0.485 vs 0.490)反超。Gated DeltaNet在各規模上均排名末位,但啟用負特徵值參數化(Gated DeltaNet[-1,1])後,其表現顯著改善,在80M規模下甚至以0.489的CRPS幾乎追平Mamba-2,說明這種狀態追蹤能力的增強在時間序列場景下同樣有價值。
三輪比較的結論高度一致:在涉及複雜依賴關係的任務中,xLSTM家族架構在絕大多數配置下表現最優,而少數例外(Gated DeltaNet在MBPP+上略強,Mamba-2在80M參數時間序列上CRPS略好)均為極小差距。這種跨領域、跨任務、跨規模的一致性給研究團隊提出了一個核心問題:xLSTM究竟是憑什麼贏的?
---
五、揭開謎底:從記憶機制看三者的本質差異
為了回答這個問題,研究團隊退後一步,從數學層面對三種架構進行了統一的形式化推導,把它們都納入同一個"線性注意力加門控"的框架下進行比較。
線性注意力是次二次方注意力的基礎形式,它去掉了標準注意力中的softmax,改用一個顯式的矩陣狀態(記為C)來儲存歷史資訊。每個時間步,模型將當前的鍵(k)和值(v)的外積疊加進這個矩陣,然後用查詢(q)從中讀取資訊。這就好比一個會議記錄員:每次發言(新的k-v對)都被加到一份摘要文檔(矩陣C)里,查詢某個問題時直接檢索文檔而不是翻看所有發言錄音。
在這個統一框架下,三種架構的差異集中體現在兩個門的設計上:輸入門(決定當前資訊寫入多少)和遺忘門(決定歷史資訊保留多少)。
xLSTM[1:0]的輸入門使用指數函數(exp),遺忘門使用sigmoid函數(σ),二者完全獨立。這意味著你可以同時決定"要寫多少新內容"和"要保留多少舊內容",兩個決策互不影響。當經過適當歸一化後,這個指數輸入門實際上會在時間維度上形成類似softmax的效果,使得模型能靈活地對歷史資訊進行"重新加權",當新資訊特別重要時,舊資訊的權重就會被相對壓低——但這是相對性的降低,不是絕對的刪除,所以歷史累積資訊仍然可以完整保留。
Mamba-2的輸入門使用softplus函數,遺忘門用(1-sigmoid)的某次冪,關鍵是兩者通過同一組參數w?計算,形成了強耦合:當你決定"寫多少新內容"的同時,"遺忘多少舊內容"也就同時被決定了。這使得Mamba-2在需要"同時大量寫入新資訊又大量保留舊資訊"的場景下力不從心。
Gated DeltaNet的設計則更加激進。除了類似Mamba-2的門控結構,它還在狀態更新時引入了一個正交投影矩陣(I - k?k/‖k‖?),這個矩陣的作用是把狀態C中與當前鍵k方向平行的分量"投影清零",然後再寫入新值。當輸入門接近1時,這相當於把歷史中記錄的同類資訊徹底替換。這種機制非常適合需要精準定點替換記憶的檢索任務,但對於需要逐步累積計數的任務來說,"舊值被清空"意味著無法在同一位置上持續疊加,從而破壞了計數的連續性。
xLSTM[0:1]的遞歸層則走了另一條路:它不使用矩陣狀態,而是保留了類似傳統LSTM的遞歸權重矩陣(R_{i,f,v}),通過將上一時刻的隱狀態反饋到當前的門計算中。這種"狀態到狀態"的直接連接賦予了模型真正的有限狀態追蹤能力——理論上可以模擬有限自動機的行為,追蹤離散狀態的轉換序列。
由此可以做出一個預測:如果xLSTM比其他兩種架構更擅長處理複雜結構化任務,那麼差異應該集中體現在兩類基礎能力上。第一類是"計數與累積"——在任意長的序列上精確地累積計數資訊,例如記住看到了多少個A、多少個B。第二類是"有限狀態追蹤"——正確追蹤隨序列輸入而離散轉變的狀態,例如記住當前"在哪個函數作用域內"或"變量x當前的值是什麼類型"。
---
六、合成實驗:讓理論預測接受考驗
為了驗證上述理論預測,研究團隊設計了一套精心構造的合成任務,專門測試兩類基礎能力,並考察模型能否在超出訓練長度的情況下穩定地泛化(即"長度外推"能力)。
所有模型在序列長度為128的數據上訓練,然後在128(訓練內)、512(4倍外推)和2048(16倍外推)三個長度上評估,考察性能如何隨序列變長而變化。這就好比讓一個剛學會數到100的孩子,突然去數一千或一萬個玻璃珠,看能不能正確數完。
計數任務族包含三種設計:AnBn任務要求模型判斷一個字符串中A的數量是否恰好等於B的數量;AnBnCn任務是三種字母必須數量完全相等;Majority(多數)任務要求模型判斷序列中哪個符號出現次數最多。這三類任務都要求模型維護一個精確的計數器,不能有任何捨入或模糊處理。
狀態追蹤任務族同樣包含三種:Parity(奇偶性)任務要求模型追蹤一個二進制序列中1的出現次數的奇偶性,每新來一個1就翻轉狀態;Modular Arithmetic(模運算)任務要求追蹤一個連續加法運算對5取模的結果,狀態在0~4之間循環跳轉;S3群運算任務要求追蹤三元置換群中的元素乘法,這是一種非交換群,狀態轉移規律比簡單模運算複雜得多。
實驗結果與理論預測高度吻合,令人信服。
Mamba-2在所有六個任務上均表現糟糕。AnBn任務在訓練長度128時精度為1.000,但到長度2048時驟降至0.241;Parity任務甚至在訓練長度內也只有0.352的準確率,從未真正解決過這個問題。這證實了Mamba-2因為輸入門和遺忘門耦合而導致的計數缺陷,以及其線性狀態轉換無法支持有限狀態追蹤的理論預測。
默認Gated DeltaNet能解決最簡單的計數變體,但隨序列變長迅速退化——Majority任務在長度2048時只剩0.268的準確率。而在所有狀態追蹤任務上,它的表現基本與隨機猜測無異(Parity準確率0.060,完全沒有解決)。這符合"顯式覆寫機制有助於替換式記憶但干擾計數累積"的預測。
引入負特徵值參數化的Gated DeltaNet[-1,1]在狀態追蹤任務上確實有顯著改善:Parity和S3在訓練長度128時均能達到1.000的完美準確率。然而,長度外推能力相當有限:Parity在長度2048時跌落至0.472,S3跌落至0.667;而且這種參數化對計數任務的幫助微乎其微,AnBnCn在長度2048時僅有0.233,Majority為0.317。換句話說,負特徵值幫助Gated DeltaNet"學會了"狀態追蹤,但沒能讓它"記住"更長的序列。
xLSTM[1:0](純線性注意力,無遞歸層)在計數任務上表現出色:AnBn在2048時精度為0.892,AnBnCn為0.932,Majority為0.763,三者均明顯優於其他架構。但正如理論預測的那樣,沒有遞歸層的線性注意力無法進行有限狀態追蹤:Parity僅0.013,S3僅0.088,完全失敗。這驗證了矩陣狀態線性注意力的"計數強、狀態追蹤弱"特性。
xLSTM[1:1](1個線性注意力層加1個遞歸層的混合配置)則展現出兩種能力的協同效果。它在所有三個狀態追蹤任務上均在所有測試長度上保持完美的1.000準確率,成為唯一在2048長度下仍能完美解決Parity、Modular Arithmetic和S3三種任務的架構。與此同時,它在計數任務上雖然不如純線性注意力的xLSTM[1:0],但仍具備有效的長度外推能力(AnBn為0.834,AnBnCn為0.716,Majority為0.742),遠超Mamba-2和Gated DeltaNet。
這套合成實驗的結果構成了一個完整的閉環論證:線性注意力矩陣狀態提供計數累積能力,遞歸狀態更新提供有限狀態追蹤能力,兩者分開來都有盲區,組合在一起才能覆蓋複雜結構化任務所需的完整能力集。這正是xLSTM[m:s]混合架構在代碼和時間序列任務上持續優於其他架構的根本原因。
---
七、這項研究有哪些局限和未來方向?
研究團隊在論文中坦率地指出了幾個值得注意的局限性。
首先,代碼語言模型預訓練實驗只在4億參數規模上進行,而蒸餾實驗只使用了一個老師模型(Qwen3-4B-Instruct)。更大規模(如70億、130億參數)、更多樣化的老師模型上的比較仍有待完成。時間序列實驗雖然覆蓋了五個參數規模(1M~80M),但相對於當代語言模型仍屬小規模。80M參數以上的時間序列模型是否仍維持xLSTM領先的格局,需要進一步驗證。
其次,本文重點比較的是當前三種最有代表性的次二次方架構,而有意排除了已在此前工作中被充分比較過的其他架構族。隨著次二次方領域研究的快速發展,基於統一框架的更廣泛架構普查是自然的後續方向。
此外,合成實驗報告的是五次隨機種子中的最高準確率,這是一種偏樂觀的評估方式,實際平均性能可能低於報告值。研究團隊選擇這種方式是為了評估架構的"能力上限"而非平均表現,但讀者在解讀具體數值時需要注意這一點。
---
說到底,這項研究做的事情說起來不複雜:把三個競爭者放在幾個真實且困難的任務上跑一跑,看看誰贏,然後追問為什麼。但它真正有價值的地方在於把"為什麼"說清楚了——不是籠統地說"設計更好",而是具體指出了"獨立的門控帶來更靈活的記憶修正"、"矩陣狀態提供累積能力"、"遞歸連接提供狀態追蹤能力",並通過精心設計的合成實驗逐一驗證了這些機制。對於整個領域而言,這種"從應用現象追溯到機制原理再用受控實驗驗證"的研究範式,本身就提供了一種可供借鑑的方法論框架。
對於關心AI發展的普通讀者而言,這項研究意味著:下一代高效AI系統的大腦設計,可能更像是xLSTM這種"既能累積又能追蹤"的混合架構,而非簡單的平方注意力或過度簡化的狀態空間模型。當你的手機助手能更流暢地理解幾千字的長文、你的IDE插件能更精準地理解跨文件的代碼依賴時,背後很可能就有這類研究成果的貢獻。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2606.12364查詢這篇完整論文。
---
Q&A
Q1:xLSTM為什麼在代碼和時間序列任務上比Mamba-2和Gated DeltaNet表現更好?
A:核心原因在於記憶機制的設計差異。xLSTM的輸入門和遺忘門是完全獨立的,可以同時靈活控制"寫入多少新資訊"和"保留多少舊資訊";Mamba-2的這兩個門被同一參數綁定,靈活性受限;Gated DeltaNet則會主動覆寫舊記憶,有利於替換式檢索但不利於累積計數。通過合成實驗驗證,xLSTM的混合架構能同時兼顧"計數累積"和"有限狀態追蹤"兩種能力,而另外兩者各有盲區。
Q2:次二次方架構和普通Transformer相比有什麼優缺點?
A:最大優勢是計算效率。Transformer處理序列時計算量隨長度平方增長,而次二次方架構(如xLSTM、Mamba-2、Gated DeltaNet)的計算量只隨長度線性增長,序列越長節省越多。代價是這類架構在通用語言理解任務上與Transformer的差距很小但存在,而在複雜結構化任務(如代碼生成)上,設計優秀的次二次方架構(如xLSTM)已經能接近甚至超過同規模的純Transformer。
Q3:Gated DeltaNet的負特徵值參數化([-1,1]變體)是什麼,能解決什麼問題?
A:這是由Grazzi等人提出的一種改進方式,將Gated DeltaNet狀態轉換矩陣的特徵值範圍從原來的[0,1]擴展到[-1,1],允許遺忘門取負值。負特徵值讓狀態更新能夠產生"翻轉"效果,從而模擬有限自動機中的狀態翻轉行為,使模型具備追蹤奇偶性、置換群運算等狀態追蹤任務的能力。實驗顯示這種改進在狀態追蹤任務的訓練長度內效果顯著,但長度外推仍不穩定,且對計數任務幫助有限。






