這項由清華大學與OpenBMB聯合開展的研究,於2026年6月發表,論文編號為arXiv:2606.15378。有興趣深入了解的讀者可通過該編號查詢完整論文。
當你打開一篇幾萬字的長文檔,希望AI幫你找出其中某個關鍵資訊時,背後的模型正在處理一個複雜的工程難題——它需要在海量文字中精準定位到那根"針"。為了讓AI既能高效處理這項任務,又不至於消耗過多計算資源,研究人員發明了一種叫做"混合注意力架構"的設計思路。然而,這種設計究竟如何影響模型的能力,長期以來都像一個黑箱,沒有人真正說清楚過。清華大學的這支研究團隊決定打開這個黑箱,他們的發現出乎意料,甚至有些反直覺。
---
一、理解"混合注意力架構":全視野與管狀視野的組合
要理解這項研究,先得明白AI模型是如何"閱讀"文字的。普通的全注意力機制(Full Attention)就像一個擁有超強記憶力的讀者,無論文章多長,他都能同時記住每一個字,並在任意兩個字之間建立聯繫。這當然很厲害,但代價也很高——文章越長,需要的計算量就呈平方級增長,就像一個人同時維持與一千個朋友的實時對話,精力消耗是驚人的。
為了降低這種消耗,研究人員引入了"高效注意力"機制。其中最常見的一種叫做滑動窗口注意力(SWA),它給模型裝上了一個有限大小的"視野窗口"——每次只能看到當前位置前面固定數量的文字,比如128個字或512個字,就像你用一把尺子沿著文章往下滑動閱讀,只能看到尺子覆蓋範圍內的內容。另一種則是循環序列混合器(Recurrent Sequence Mixers),包括Lightning Attention、Mamba-2和Gated DeltaNet(GDN)三種變體,它們的工作方式更像人腦的短期記憶——把之前讀過的內容壓縮成一個摘要狀態存起來,隨著閱讀推進不斷更新這個摘要,而不是事無巨細地記住每一個字。
現代主流大模型通常把這兩類機制混合起來使用,也就是在模型的不同層交替安排"全注意力層"和"高效注意力層",這就是所謂的混合注意力架構。這種設計在實踐中被谷歌Gemma 3、GPT等多個主流模型廣泛採用。然而,不同的高效注意力設計究竟對模型能力有何影響,特別是對處理長文本的能力影響如何,此前一直缺乏系統性的研究。這正是清華團隊著手解決的核心問題。
---
二、三個關鍵問題:從宏觀規律到微觀機制
研究團隊像偵探一樣,從三個維度對混合架構展開調查。第一個問題是關於規模的:隨著模型越來越大、訓練數據越來越多,不同混合架構在短文本和長文本處理能力上會呈現怎樣的變化趨勢?第二個問題深入機制層面:高效注意力設計究竟通過什麼路徑影響模型的長文本處理能力?第三個問題則落地到實踐:基於前兩個問題的答案,我們能設計出更好的混合架構嗎?
為了回答這些問題,研究團隊設計了一套嚴密的實驗體系。他們搭建了從1500萬到6.6億參數不等的五個規模級別的模型,對每個規模訓練了多個不同的數據量檢查點,總共比較了七種架構設計:一種純全注意力模型(Full)作為基準,三種不同窗口大小的滑動窗口注意力混合模型(SWA-128、SWA-512、SWA-2048,數字代表窗口大小),以及三種基於循環機制的混合模型(Lightning、Mamba-2、GDN)。
在評估指標上,團隊沒有直接依賴離散的下游基準分數,因為這類分數往往不穩定,不適合追蹤訓練過程中的動態變化。他們採用了兩個連續的指標:驗證集損失(Loss)用來衡量短文本建模質量,以及log(LongPPL)用來衡量長文本處理能力。LongPPL是一個專門針對長文本的困惑度指標,只計算那些真正需要利用長距離上下文才能準確預測的詞的預測難度,能更準確地反映模型的長文本理解能力。
---
三、規模定律揭示的驚人規律:短文本差不多,長文本差很多
當實驗數據匯聚成圖表時,一個清晰的故事浮現出來。在短文本處理能力上,七種架構的驗證集損失曲線幾乎完全重疊,就像七條幾乎平行的軌道,說明高效注意力的設計對短文本能力幾乎沒有影響。無論你給模型裝的是大窗口還是小窗口,無論用的是滑動窗口還是循環記憶,模型在普通文本理解上的表現大差不差。
長文本的故事則截然不同。在訓練數據較少(也就是訓練"預算"有限)的情況下,不同架構之間的差距非常顯著,尤其是使用2048大小窗口的SWA-2048,其log(LongPPL)遠高於其他架構,意味著它在處理長文本時表現明顯更差。這種差距在訓練初期最為懸殊,各架構之間的長文本能力仿佛被拉開了好幾條街的距離。
然而隨著訓練數據量的增加,這種差距開始收窄。當訓練足夠充分時,所有架構的長文本能力最終趨於相近,收斂到接近全注意力模型的水平。這就好像七個學生在準備同一場考試,有的學生一開始就掌握了遠距離檢索資訊的技巧,有的學生學得很慢,但只要給足學習時間,大家最終都能考出相似的成績。
這個發現帶出了一個核心結論:高效注意力的設計對最終的長文本能力影響有限,但對這種能力湧現的速度影響顯著。換句話說,它影響的是"何時學會",而不是"最終能否學會"。
---
四、機制探秘:真正扛起長文本理解重任的,其實是全注意力層
這個規律背後隱藏著什麼機制?研究團隊決定進一步追查。他們提出了一個關鍵假設:也許高效注意力模組,特別是那些理論上能記住無限長歷史的循環模型,並沒有真正承擔長距離資訊檢索的工作——這項任務其實是由全注意力層獨力完成的。
為了驗證這個假設,團隊設計了一個巧妙的"受限實驗"。他們在推理時人為限制模型中不同組件的"記憶範圍":將全注意力層的可見歷史限制在約2048個詞以內,然後觀察模型的長文本處理能力如何變化;再單獨限制高效注意力層的記憶範圍,觀察同樣的指標。
結果非常清晰:當全注意力層的記憶被限制後,模型的長文本處理能力急劇惡化,log(LongPPL)大幅飆升;而當高效注意力層被限制時,變化微乎其微。這一結論對所有七種架構都成立,甚至包括那些理論上擁有無限記憶範圍的循環模型(如GDN)——即便它們理論上能記住任意長的歷史,實際上儲存在其循環狀態中的長距離資訊也少得可憐,對長文本理解的貢獻極小。
為了從另一個角度再次確認,團隊還做了一個"逐層探針"實驗。他們在每一層的輸出上訓練一個簡單的分類器,測試該層的輸出中包含多少關於遠距離"針"(插入文本中的關鍵資訊)的資訊。結果發現,在混合架構中,長距離資訊幾乎只在全注意力層出現時才有顯著增加,高效注意力層對應的位置幾乎沒有貢獻,甚至偶爾會略微降低資訊的可探測性。這與純全注意力模型的表現形成鮮明對比——純全注意力模型的長距離資訊會隨層數持續穩定增長。
由此可以得出一個明確的結論:在混合架構中,全注意力層是長文本理解能力的核心承載者,高效注意力層更像是輔助角色,而不是主演。
---
五、"大窗口懶惰症":為什麼更大的視野窗口反而讓模型學得更慢
既然長文本能力主要由全注意力層承載,為什麼SWA-2048在訓練早期表現如此之差,學習速度如此之慢?這裡出現了這項研究中最有趣的一個發現,研究團隊給它起了一個生動的名字——"大窗口懶惰症"(Large-Window Laziness)。
道理其實不難理解。當滑動窗口很大(比如2048個詞)時,模型在大多數情況下都能用窗口內的資訊預測下一個詞,不需要向更遠的位置去檢索。這就像你在考試時有一本可以隨時翻閱的參考書(大窗口),你自然就不會費心去背誦答案;而如果只允許你看旁邊同學的桌子(小窗口),很多答案就在視野之外,你就不得不提前把重要內容記在腦子裡。
大窗口給模型提供了一種"走捷徑"的機會——它可以依賴局部窗口內的資訊來完成大多數預測,而不需要訓練全注意力層去執行真正的長距離檢索。結果就是,全注意力層中負責長距離檢索的"檢索頭"(Retrieval Head)形成得更晚,發展得更慢。
檢索頭是近年來研究人員在大模型中發現的一種特殊注意力頭,它專門負責在長文本中定向檢索特定資訊,是長文本理解能力的關鍵組件。研究團隊通過追蹤檢索頭的兩個指標來觀察其發展過程:注意力熵(Attention Entropy,越低說明檢索越精準)和Q/K參數收斂距離(衡量檢索頭參數距最終形態還差多遠)。
實驗結果清晰地顯示,SWA-2048是一個明顯的異類:在整個訓練過程中,它的檢索頭注意力熵始終保持在較高水平,Q/K參數的收斂速度也明顯慢於其他架構。與之相對,小窗口的SWA-128以及循環模型混合架構中,檢索頭的發展則要早得多、快得多。這正是因為小窗口和循環模型無法提供足夠的局部資訊,強迫全注意力層不得不儘早承擔起長距離檢索的責任。
研究團隊還通過梯度影響分析為這個機制提供了量化支撐。他們用Llama-3.1-8B這個成熟的語言模型來測量"在預測當前詞時,距離d之外的歷史詞提供了多少有效的訓練信號"。結果發現,超過2048個詞之外的信號已經衰減到了基線水平,而512到2048詞範圍內的信號還相當豐富。這意味著,一個2048大小的窗口已經能覆蓋絕大多數有效的訓練信號,小窗口(如128或512)則把大量有效信號留在了窗口外,這些留在窗口外的信號就成為了驅動全注意力層發展長距離檢索能力的動力。
梯度追蹤實驗進一步直觀地展示了這個過程:在訓練過程中,小窗口模型的檢索頭Q投影矩陣的梯度範數(可以理解為"學習強度"的指標)很早就開始顯著上升,說明這個頭很早就在活躍學習;而SWA-2048的檢索頭直到約1500步之後才開始接收到有效的梯度信號,在此之前幾乎沒有在學習長距離檢索。
---
六、從機制到設計:如何打造更好的混合架構
理解了機制之後,研究團隊自然地將目光轉向實踐:既然長文本能力的瓶頸在於全注意力層能否高效地學會長距離檢索,那麼架構設計的重點就不應該是讓高效注意力模組變得更強大,而應該是幫助全注意力層更快、更有效地發展長距離檢索能力。
沿著這個思路,團隊考察了幾個不同的設計維度。首先是全注意力層與高效注意力層的比例。實驗對比了1:1(每個全注意力層對應一個高效注意力層)和1:3(每個全注意力層對應三個高效注意力層)兩種配置。結果發現,在短文本性能上兩者幾乎沒有差別;在長文本能力上,1:3的稀疏配置在小模型規模下略差,但隨著模型變大,差距逐漸消失。這說明在模型足夠大之後,可以放心減少全注意力層的比例而不顯著犧牲性能,這對於降低計算成本是一個積極信號。
其次是層內混合還是層間混合的問題。有些設計選擇在同一個Transformer層內同時放置全注意力頭和高效注意力頭(頭級別混合),另一種則是把全注意力層和高效注意力層分開放置(層級別混合)。對比實驗顯示,頭級別混合併不比層級別混合更好,反而在收斂速度上略慢一些,說明把全注意力和高效注意力分層放置的傳統做法更為合理。
最引人關注的設計探索是關於位置編碼的。現代語言模型通常使用一種叫做RoPE(旋轉位置編碼)的技術來讓模型感知詞與詞之間的距離關係,但RoPE有一個已知的局限性——它對模型在訓練中見過的距離範圍之外的泛化能力較弱。有研究發現,去掉全注意力層的位置編碼(稱為NoPE,即無位置編碼),反而能增強其長距離檢索能力,因為沒有位置偏置的限制,模型可以更自由地從任意距離的位置檢索資訊。
研究團隊將NoPE應用到SWA-128混合模型的全注意力層中,保留滑動窗口注意力層原有的位置編碼不變,命名為SWA-128-NoPE。這個改動帶來了令人印象深刻的效果:在log(LongPPL)上有顯著下降(說明長文本處理能力明顯提升),而短文本驗證損失幾乎不受影響。
在下游基準測試上,這種改進同樣得到了驗證。以S5規模幾乎完全一致,與Full(40.46)相比甚至略有提升。將模型進一步在32K長度上額外訓練50億詞後,差距進一步擴大,SWA-128-NoPE在RULER的NIAH子任務上平均得分70.42,顯著高於SWA-128的60.17和Full的62.61。
這一系列結果說明,通過對全注意力層應用NoPE這樣一個相對簡單的改動,就可以在不損失短文本能力的前提下,顯著提升混合架構的長文本處理能力。
---
七、研究的邊界與局限
研究團隊對自己工作的局限性也做了坦誠的交代。整個實驗的最大模型規模為6.6億參數,訓練數據最多約1000億詞,與當前工業界前沿模型動輒數千億參數、數十萬億訓練詞數的規模相比還有相當差距,研究結論在更大規模下是否完全適用仍需進一步驗證。此外,所有模型都是直接在16K上下文長度上預訓練,並擴展到最多32K,而工業界常用的做法是先在短上下文上預訓練,再通過專門的長上下文擴展訓練來提升長文本能力,兩種路徑的差異可能影響結論的適用範圍。
在高效注意力機制的覆蓋上,研究選取了目前最有代表性的幾類,但仍有一些流行的變體如RWKV-7、Kimi-Linear等沒有納入比較。第六節中關於架構設計的探索也更多是作為機制驗證的例證,而非完整的設計研究,更大規模的系統性驗證留待後續工作。
---
說到底,這項研究幫助我們重新認識了一個"常識性錯誤":在混合架構的設計中,大家往往認為高效注意力模組越強大、視野窗口越大,模型處理長文本的能力就越強。但事實恰恰相反——高效注意力模組提供的"便利"越多,反而會拖慢全注意力層發展真正長距離檢索能力的速度,就像考試時允許帶的參考書越厚,反而讓學生越不願意真正去記住那些重要的知識點。
這種被研究團隊命名為"大窗口懶惰症"的現象,本質上揭示了一個優化動力學的問題:當模型有捷徑可走時,它就會走捷徑。真正能做長距離檢索的全注意力層,只有在被迫面對它"無法迴避的責任"時,才會真正發展出相應的能力。因此,好的混合架構設計,不是給全注意力層更多輔助,而是讓它更早、更有效地承擔起自己的核心職責。
這個發現對於AI領域的工程師和研究人員而言,提供了一個更清晰的設計指南:與其在高效注意力模組上做文章,不如在全注意力層的優化上花更多心思,比如採用無位置編碼、調整層間比例等手段,幫助全注意力層更高效地成長為真正的"長文本檢索專家"。對於關注AI發展的普通人而言,這意味著未來處理超長文檔的AI助手將變得更加可靠,而實現這一目標的關鍵,可能就在於一個看似反直覺的小把戲——給模型少一點"便利",反而能讓它學得更好。有興趣深入了解這項研究所有細節的讀者,可以通過arXiv編號2606.15378查閱完整論文。
---
Q&A
Q1:混合注意力架構中的滑動窗口注意力窗口大小設置多少最合適?
A:根據清華大學的這項研究,小窗口(如128個詞)的滑動窗口注意力反而更有利於模型學習長距離資訊檢索能力。大窗口(如2048)雖然能覆蓋更多局部資訊,但會讓全注意力層"偷懶",延遲其發展真正長距離檢索能力的時間。在訓練數據充足的情況下,大窗口和小窗口最終會收斂到相近的長文本性能,但小窗口在訓練早期就能讓模型更快達到良好的長文本處理水平。
Q2:NoPE(無位置編碼)用在全注意力層為什麼能提升長文本處理能力?
A:RoPE等位置編碼方案會給注意力層引入基於距離的偏置,使其對訓練中常見的距離範圍之外的資訊檢索能力較弱。當全注意力層去掉位置編碼(NoPE)後,沒有了位置資訊的約束,模型可以更自由地從任意距離的位置檢索相關資訊,長距離檢索能力因此得到顯著提升。實驗顯示,對SWA-128混合模型的全注意力層應用NoPE後,長文本基準分數明顯提升,而短文本性能幾乎不受影響。
Q3:循環序列模型(如Mamba-2)理論上能記住無限長歷史,為什麼長文本能力不比滑動窗口強?
A:儘管循環序列模型在理論上具有無限的感受野,但實驗發現它們的循環狀態中實際儲存的長距離資訊非常有限。當研究人員在推理時限制循環模型只能訪問約2048詞的歷史時,模型的長文本處理能力幾乎沒有變化;而限制全注意力層的訪問範圍時,性能則急劇下降。這說明在混合架構中,真正承擔長距離資訊檢索工作的是全注意力層,循環模型雖然理論能力更強,但實際學習到的長距離資訊極少,更多地扮演輔助角色。






