斯坦福大學研究團隊如何讓AI"聰明地遺忘"，讓超長文本處理效率提升3倍以上？

這項由斯坦福大學領導的研究發表於2026年6月，論文編號為arXiv:2604.20920，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

每當你讓ChatGPT或類似的AI助手閱讀一篇很長的文章並回答問題時，這個AI其實正在做一件極其耗費精力的事情——它必須把文章里每一個字都"記在腦子裡"，哪怕其中大部分內容跟你的問題毫無關係。這就好比你問一個朋友"這本500頁的小說里，主角最後去了哪座城市"，但你的朋友為了回答這個問題，卻必須把整本書從頭到尾背誦一遍，然後才能開口說話。這顯然既浪費時間，又耗費巨大的精力。

現實中的AI大模型面臨著完全相同的困境。隨著文本越來越長，AI需要處理的資訊量呈爆炸式增長，計算成本和內存占用以平方級別飛速上漲。處理一篇一萬字的文章，其難度可能是處理一千字文章的一百倍，而非十倍。這個問題在業界被稱為"長文本推理瓶頸"，是制約當前大語言模型能力的核心障礙之一。

為了解決這個問題，斯坦福大學的研究團隊提出了一套名為"簡化稀疏注意力"（Simplified Sparse Attention，簡稱SSA）的全新方法。這套方法的核心理念極其優雅：教會AI像聰明的讀書人一樣工作——先快速瀏覽全文做筆記，等真正需要某段內容時，再回頭精讀那一部分。更令人印象深刻的是，這套方法不需要對AI的基本結構做任何改動，就像給一個人傳授新的閱讀技巧，而不是換一個新的大腦。

一、AI為什麼需要學會"做筆記再精讀"

要理解SSA究竟解決了什麼問題，可以先想想一個圖書館管理員的工作。假設有人來問："請幫我找出所有關於法國大革命的資料。"一個低效的管理員會把圖書館裡所有書架上的每一本書都翻一遍；而一個聰明的管理員會先查詢索引卡，找到相關書目，再精確地取出那幾本書。前者雖然不會遺漏任何資訊，但耗時耗力；後者雖然依賴索引的準確性，但效率極高。

贊助商廣告

當前AI處理長文本的方式，更接近那個低效管理員——無論你的問題多麼具體，它都必須把所有內容平等地過一遍。這種方式在學術上被稱為"全注意力機制"（Full Attention），其代價隨文本長度急劇增加。於是，研究者們開始探索各種"稀疏注意力"方案，讓AI只關注最相關的那部分內容。

然而，已有的稀疏注意力方案各有各的麻煩。有些方案只在推理時應用，完全沒有經過專門訓練，效果打折扣；有些方案雖然效果好，卻需要在AI的基本結構上動大手術，比如增加新的神經網路模組，或者引入專用的輔助索引器，讓整個系統變得複雜難以維護。斯坦福的研究團隊因此提出了一個問題：有沒有可能設計一種方法，既讓AI真正學會這種"聰明閱讀"策略，又完全不改動AI的基本架構？

答案就是SSA，而它的核心工具是一種叫做"要點標記"（Gist Tokens）的特殊符號。

二、"要點標記"究竟是什麼

要理解要點標記，可以藉助一個學生做筆記的場景。假設你正在讀一本歷史教材，每讀完一章，你會在旁邊的便利貼上寫下幾行摘要："本章核心：法國大革命起因，三個關鍵事件，時間1789年"。這張便利貼就是一個"要點標記"——它不包含原文的全部細節，但壓縮了這一章最重要的資訊。等你日後複習時，先看便利貼，就能大致判斷"這章的內容和我現在的問題相關嗎"，如果相關，再翻回原文精讀；如果不相關，直接跳過。

SSA的做法與此如出一轍。研究團隊把輸入給AI的長文本切分成若干小段，每段長度固定（比如每16個詞語為一段）。在每一小段的末尾，插入一個特殊的"要點標記"符號。在訓練階段，這個要點標記會通過特殊的注意力規則被"強迫"學習壓縮它前面那一段內容的精華——因為訓練規則規定，後續的文字不能直接回頭看某段的原始內容，只能通過該段的要點標記來獲取資訊。這就像強制規定學生只能通過便利貼來複習，迫使他們把筆記做得精煉準確。

贊助商廣告

通過這種"被迫壓縮"的訓練，每個要點標記的內容就變得極具代表性。它不是簡單的平均，而是經過AI自己學習後形成的語義濃縮，能夠捕捉到原始段落中最關鍵的含義。訓練所用的目標和普通語言模型完全一樣——預測下一個詞，使用標準的交叉熵損失函數，無需任何額外的輔助損失或新增參數。

三、推理時的"選擇性展開"：聰明閱讀的精髓

有了這些經過訓練的要點標記，SSA在實際回答問題時的工作流程就變得既簡單又高效。這個過程可以用"先看目錄，再翻正文"來描述。

當用戶提出一個問題時，AI首先拿著這個問題的"向量表示"（可以理解為問題的數字版本），去和文章中所有段落的要點標記逐一比對，計算相關程度的分數。這個比對過程極其快速，因為要點標記的數量遠遠少於原始文本的詞語數量——假設原文有1000個詞，分成100段，那麼要點標記只有100個，而不是1000個。比對完成後，AI選出得分最高的若干段落（即Top-k選擇），然後把這些被選中段落的原始內容重新"展開"，加入到AI的實際注意力範圍中。對於那些沒被選中的段落，AI完全不去處理它們，就像那些沒被取下的書，直接忽略。

這個"展開"的過程在論文中被稱為"選擇性展開"（Selective Unfolding），是整個SSA方法最核心的創新。它巧妙地將"用什麼來選"（要點標記，少量且精煉）和"選完後讀什麼"（原始內容，豐富且詳細）分開處理，兩全其美。

在具體的注意力計算上，被選中段落的內容會和該段的要點標記一起進入AI的視野。研究團隊發現，把選中段落的要點標記和原始詞語一同保留，比只保留原始詞語效果更好——要點標記作為對整段內容的壓縮總結，提供了一種"全局視角"，彌補了原始詞語只能逐詞表達的局限。而那些沒被選中的段落，連它們的要點標記也會被排除在外，這樣可以把有限的"注意力預算"完全集中在最相關的內容上。

贊助商廣告

值得一提的是，由於問題只需與要點標記比對，而不需要與完整的KV緩存（AI記憶內容的儲存形式）比對，SSA還解決了另一個工程難題：許多現有的稀疏注意力方法雖然最終只處理一部分內容，但為了"找到"應該處理哪些內容，仍然需要把全部內容讀入內存，這導致內存頻寬成為瓶頸。SSA通過要點標記直接定位相關段落，徹底避免了這一問題。

四、如何讓AI真正學會這套技巧：兩階段訓練

SSA的訓練過程分為兩個階段，可以類比為先"教會學生做筆記"，再"讓學生在考試條件下練習"。

第一階段叫做"持續預訓練"，是必須經歷的步驟。在這個階段，研究團隊用大量文本對AI進行繼續訓練，但特別設計了注意力掩碼（一種控制AI"看"哪些內容的規則）：文章被分段加入要點標記，每段內的原始詞語可以互相"看見"，也可以看到之前所有段的要點標記，但不能直接看到更早那些段的原始詞語。這種限制迫使要點標記充當資訊中轉站，必須把過去段落的精華保留下來，以供未來詞語參考。訓練目標依然是普通的下一詞預測，整個過程無需特殊的CUDA核心，完全可並行化。

完成第一階段後，AI就已經具備了在推理時進行選擇性展開的能力，不需要任何額外訓練就能直接使用SSA。但為了讓AI更好地適應"在考試時只有部分內容可用"的場景，研究團隊還設計了第二階段——"選擇性微調"，屬於可選步驟。

在微調階段，訓練數據同樣被分為壓縮上下文（前半部分）和生成上下文（後半部分）。壓縮部分的處理方式和第一階段完全相同；但在生成部分，每個位置的注意力掩碼不再是固定的，而是動態地根據當前詞語的向量，計算與各段要點標記的相關分數，然後只允許注意到得分最高的幾段內容的原始詞語。這讓AI在訓練時就"親身體驗"了選擇性展開的過程，而不僅僅是在推理時臨時應用一個沒訓練過的技巧。不過微調階段需要位置依賴的稀疏掩碼，實現上略複雜，對於不想增加實現難度的開發者，跳過這一步也能得到相當好的效果。

贊助商廣告

五、層層嵌套的"筆記的筆記"：H-SSA的誕生

SSA已經很強大了，但研究團隊發現，這套"做筆記"的邏輯其實可以無限嵌套。既然可以對原始段落做筆記，為什麼不能對筆記再做筆記呢？

以圖書館的比喻來延伸：每本書有章節摘要，圖書館有圖書分類目錄，城市圖書館系統有總目錄。當你要找一條特定資訊時，你先看總目錄確定大類，再看分類目錄鎖定具體書目，最後取出那本書翻到相關章節——這正是分層檢索的精髓。

H-SSA（層級簡化稀疏注意力）就是這個原理的工程實現。在單層SSA的基礎上，研究團隊引入了"元要點標記"（Meta-Gist Tokens）——每隔若干個普通要點標記，就插入一個元要點標記，負責壓縮這一組普通要點標記的內容。類比來說，如果普通要點標記是每章的便利貼摘要，那元要點標記就是每本書的封底簡介。

在推理時，H-SSA採用從粗到細的兩步選擇：先用當前問題與數量很少的元要點標記比對，找到最相關的幾個大組；再在這些大組內，用問題與普通要點標記比對，鎖定最相關的具體段落；最後才展開這些段落的原始內容。這種層級路由將每步的搜索範圍大幅縮小，使得總體的路由計算量從線性（正比於段落總數）降低到對數級別（正比於段落總數取對數）。

從計算複雜度來講，這意味著什麼？假設文章有一百萬個詞，單層SSA在路由時仍需處理約六萬多個段落標記，而H-SSA可能只需處理幾百個元要點標記，再處理幾十個普通要點標記，總計不過幾百次比較。這是質的飛躍，讓超長文本的處理成為現實。理論上，H-SSA的層級結構可以無限延伸，支持任意長度的文本，只需隨著文本增長添加新的層級即可。

六、針對現代GPU的專屬核心設計

技術上的優雅還需要工程實現的配合。研究團隊專門為SSA和H-SSA設計了高效的計算核心，讓理論上的效率優勢在真實硬體上得以實現。

贊助商廣告

在文本處理階段（預填充階段），問題在於SSA的稀疏注意力模式在結構上比較特殊：要點標記這類"全局"資訊出現在序列各處，導致標準的分塊稀疏計算無法直接跳過空白塊。研究團隊用了一個聰明的技巧——"鍵列置換"：在計算注意力之前，先把所有頻繁出現的全局資訊（要點標記和注意力錨點）挪到序列的最前面，把局部資訊移到後面。由於注意力計算對鍵的排列順序不敏感（softmax會做歸一化），這個置換不影響計算結果，卻讓稀疏結構變得規整：全局資訊形成一個密集的薄塊，局部資訊形成一個對角帶狀結構，空白部分可以被高效跳過。

在回答生成階段（解碼階段），研究團隊設計了一套三步流水線核心。第一步是"並行壓縮"：一個核心快速掃描需要保留的鍵值對索引，利用線程束級別的原子操作，把需要處理的內容地址緊密排列，避免稀疏數據帶來的碎片化。第二步是"分割K部分注意力計算"：另一個核心在壓縮後的緊密列表上並行計算注意力，多個線程塊同時處理不同區段，每個線程塊內部會把同一KV組中多個查詢頭共享的鍵值塊只加載一次，最大化內存復用率，這與NSA（原生稀疏注意力）的分組設計思路類似。第三步是"合併"：將各分塊的部分注意力結果通過標準的對數求和指數技巧合併為最終輸出。整個解碼過程只讀取被選中的若干段內容的鍵值對，加上少量元數據，完全不觸碰完整的鍵值緩存，從根本上消除了內存頻寬瓶頸。

七、實驗結果：不只是"省力"，有時還更准

研究團隊在兩個模型家族上驗證了SSA的效果：規模較大的Qwen2-7B-Instruct（一個經過指令微調的70億參數模型）和規模較小的Llama3.2-1B（一個10億參數的基礎模型）。測試涵蓋兩大場景：長文本理解（使用LongBench基準測試）和檢索增強生成（使用多個多文檔問答數據集）。

在長文本理解場景下，SSA與其他方法在相同壓縮比下進行比較。以8倍壓縮為例，這意味著AI實際處理的內容只有原文的八分之一。SSA在持續預訓練後平均得分46.20，而同類的ActivationBeacon方法只有42.52，UniGist方法為43.40，差距在2.8到3.7分之間。即使將壓縮比提高到16倍和32倍，SSA依然保持領先優勢：32倍壓縮下SSA得44.07，而對手方法普遍只有38分左右。經過選擇性微調後，SSA在某些具體任務上甚至超越了不做任何壓縮的完整注意力模型——例如在MF-en任務（一種多欄位英文問答）上，SSA得54.24，而全注意力基線只有50.33。這說明選擇性展開不只是彌補壓縮損失，有時還能主動過濾掉干擾資訊，反而提升準確率。

贊助商廣告

與只在推理時應用稀疏策略（不做任何額外訓練）的方法相比，SSA的優勢更加顯著。H2O方法在8倍"壓縮"下得44.20，StreamingLLM得38.81，Quest只有17.32，而SSA（僅經過預訓練）就已經達到46.20，且這些對比是在相同的計算預算下進行的。

檢索增強生成場景則展現出SSA最令人驚訝的優勢。在這個場景下，用戶提供多篇文檔（其中大部分是無關文檔）和一個問題，AI需要找到正確答案。僅經過持續預訓練的SSA在8倍壓縮下就達到了33.68的平均分，不僅遠超KVLink（21.58）和UniGist（22.53）超過11分，甚至超過了原始未壓縮模型（27.99）和經過完整注意力持續預訓練的模型（27.14）。這個結果表明，當大多數文檔都是無關干擾時，強迫AI"專注於少數段落"反而有助於它忽略噪聲，找到真正相關的資訊。經過微調後，SSA在8倍壓縮下達到53.39，比KVLink高出近12分，比UniGist高出超過8分，與全注意力微調模型（57.76）的差距也只有4.4分。

H-SSA在高壓縮比下表現出更強的競爭力。在32倍壓縮微調後，H-SSA得44.94，而單層SSA只有43.35。在16倍壓縮的檢索增強場景下，H-SSA達到50.72，優於SSA的49.29。這與直覺一致：層級結構在壓縮率越高時，粗粒度到細粒度的分級篩選越能有效分配有限的注意力預算。

研究團隊還專門測試了一種叫做"KV緩存復用"的場景：同一批文檔被不同的問題反覆查詢，通過提前緩存文檔的鍵值對來避免重複計算。SSA在此場景下同樣出色，8倍壓縮下達到48.07，16倍壓縮下H-SSA達到46.34，均大幅領先KVLink和UniGist。

在效率測試方面，研究團隊在單張NVIDIA H100 GPU上測量了SSA在16倍壓縮下的端到端延遲。結果非常直觀：全注意力解碼（Flash-Decoding）的每詞輸出時間隨上下文長度線性增長，從8K詞時的21.9毫秒一路爬升到44K詞時的76.4毫秒；而SSA的每詞輸出時間幾乎保持平坦，始終在21到23毫秒之間，H-SSA也穩定在25毫秒附近。在44K詞時，SSA比全注意力快3.37倍，H-SSA快3.05倍。在預填充階段，SSA從約33K詞開始就比全注意力FlashAttention更快，44K詞時達到0.90倍延遲。單獨看注意力算子（排除其他模型組件的影響），H-SSA的預填充在200K詞時比稠密FlashAttention快8.3倍，解碼快1.58倍。

贊助商廣告

八、細節決定成敗：關於設計選擇的實驗對比

研究團隊進行了一系列精細的消融實驗，驗證SSA中各個設計選擇的必要性。

關於選中段落後的注意力上下文組成，研究團隊比較了三種方案：只包含選中段落的原始詞語（不含要點標記）、包含所有段落的要點標記加上選中段落的原始詞語、只包含選中段落的要點標記加上其原始詞語。結果顯示第三種方案效果最好（平均53.39），第二種方案次之（53.27），純原始詞語最差（52.76）。這說明保留選中段落的要點標記有助於AI同時擁有"壓縮的全局視角"和"詳細的局部資訊"，而把所有不相關段落的要點標記也納入會引入噪聲，稍微降低性能。

關於Top-k（固定選取前k個段落）與Top-p（累積概率超過閾值p時停止選取）的比較，研究表明自適應Top-k始終優於各種閾值的Top-p方案，且穩定性更好。Top-p方案的問題在於，不同問題的相關性分數分布差異很大，一個固定的概率閾值在某些問題上會選太多段落，在另一些問題上又選太少，導致效果波動明顯。Top-k通過直接控制token預算，提供了更一致的壓縮率保證。

研究團隊還測試了一項極端驗證——"密鑰檢索"任務：在超長干擾文本中隱藏一個簡短密碼，測試AI能否找到它。SSA和H-SSA在兩種模型上均達到100%的完美準確率，覆蓋從5千詞到5萬詞（Qwen2，超出訓練長度2.5倍）以及從4千詞到4萬詞（Llama3.2，超出訓練長度10倍）的全部範圍，且密鑰位於任意位置時均無遺漏。這表明SSA的選擇性展開機制在極端檢索任務下非常可靠，並且具備良好的長度泛化能力，訓練時沒見過這麼長的文章，推理時依然能夠正確處理。

說到底，SSA這項研究的價值在於它把一個看似需要大量架構改造的複雜問題，用一個優雅且簡單的訓練技巧給解決了。它告訴我們，讓AI"學會聰明閱讀"並不需要給它裝新的零件，只需要用合適的方式訓練它，它自己就會學會做摘要、學會判斷相關性、學會在需要細節時精確回頭查閱。這對未來的AI應用具有實際意義——無論是閱讀超長法律文書、分析大型代碼庫、還是在海量文檔中回答專業問題，SSA都可以在幾乎不改變現有系統架構的前提下，讓AI變得既快又准。當然，該研究也存在一定局限：訓練需要額外的預訓練步驟，對計算資源有一定要求；選擇性展開的chunk大小等超參數需要根據具體任務調整；在某些需要高度連續上下文的任務上，強制分段可能會割裂重要的跨段依賴。但這些都是未來可以繼續優化的方向，並不影響這項工作所展示的核心可行性。

贊助商廣告

感興趣的讀者可以通過arXiv編號2604.20920查閱完整論文，代碼也已在GitHub公開，檢索"simplified-sparse-attention"即可找到。

Q&A

Q1：SSA和普通的稀疏注意力方法有什麼區別？

A：普通的稀疏注意力方法通常直接在推理時決定"看哪些內容"，沒有經過專門訓練，相當於用一個未受過訓練的人來做文檔篩選。SSA則通過持續預訓練，讓AI真正學會把每段內容壓縮進"要點標記"，再用這些標記來精確篩選相關段落。更重要的是，SSA不需要修改模型架構，只需在標準訓練流程中調整注意力掩碼即可實現，工程實現門檻低得多。

Q2：H-SSA層級結構的層數越多越好嗎？

A：不一定。層數越多，每步的路由計算成本越低，理論複雜度越接近對數級別，但每新增一層都會讓壓縮資訊經歷更多次的"二次壓縮"，可能損失更多細節。論文中測試的兩層H-SSA在16倍和32倍壓縮場景下效果優於單層SSA，但具體層數需要在壓縮率、資訊保真度和計算效率之間權衡選擇，並非無限疊加層數就最好。

Q3：SSA在檢索增強生成場景下為何能超越不壓縮的全注意力模型？

A：這是因為檢索增強生成通常會提供多篇文檔，但只有少數文檔真正與問題相關，其餘都是干擾資訊。全注意力模型會平等對待所有文檔，注意力被大量無關內容分散，反而難以聚焦在正確答案上。SSA的選擇性展開機制通過要點標記評分，主動過濾掉低相關性的文檔段落，讓AI的注意力高度集中在真正相關的內容上，相當於自動去除了噪聲，因此在這類場景下效果反而更好。