首爾國立大學研究新突破：AI讀完「書」就扔掉筆記，竟比一直抄筆記更聰明？

這項由首爾國立大學數據科學研究生院主導的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.06105，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

每次你問AI一個問題，它都要先把你給它的所有材料從頭到尾讀一遍，然後才開始回答。這個"讀材料"的過程，在AI技術里叫做"預填充"（Prefill），而隨後逐字生成答案的過程叫做"解碼"（Decode）。當你給AI的材料特別長，比如一份幾萬字的合同、一本書，或者一段長達十幾萬字的代碼庫時，這個"讀材料"的過程會變得極度耗時耗電，而且AI在回答每一個字時，都要反覆翻閱之前存下來的所有"筆記"，速度越來越慢，內存占用也越來越大。

首爾國立大學的研究團隊提出了一個聽起來有點反直覺的解決思路：AI在讀材料時，只需要在大腦的"底層區域"做詳細筆記，到了大腦的"高層區域"，就可以把這些材料筆記扔掉，只保留自己正在寫的答案部分。他們把這個方法叫做SPEED，全稱是"淺層預填充、深層解碼"（Shallow Prefill, dEEp Decode）。實驗結果顯示，這個方法在保持AI答題質量幾乎不變的情況下，讓AI回答第一個字的速度提升了33%，回答每一個後續字的速度提升了22%，占用的記憶空間減少了25%。

---

一、為什麼AI讀長文章這麼費勁？

要理解這個研究解決了什麼問題，得先明白AI是怎麼處理資訊的。現代的大型語言模型，比如大家熟悉的各類聊天AI，在結構上是一座"多層樓大廈"。以這篇論文用的Llama-3.1-8B模型為例，這座大廈有32層。資訊從第1層輸入，一層一層往上處理，最後從第32層輸出答案。

當你給AI一段很長的文字材料時，AI會先把這段材料的每個詞語，在這座大廈的每一層樓都做一份"鑰匙和鎖"的記錄（專業上叫KV緩存，Key-Value Cache）。你可以把它理解成每個詞在每一層樓都留了一份檔案。一段128000個詞的文章，乘以32層樓，就是海量的檔案儲存量。

贊助商廣告

更麻煩的是，當AI開始生成答案時，它每生成一個新詞，都要去翻閱材料里所有詞的檔案——而且要翻閱所有32層樓的檔案。這就好比一個學生在考試寫作文時，每寫一個字，都要把整本參考書的每一頁重新翻看一遍，效率極低，而且書越厚越慢。

研究人員觀察到一個關鍵現象：AI在高層（比如第25層到第32層）對材料內容的關注度，遠比在中低層時要低得多。用一張熱力圖來看，AI在中間層對材料的注意力非常集中，但到了高層，這種注意力幾乎消失了，AI的高層主要在關注它自己正在生成的答案詞語之間的關係。

這就像一個廚師在做一道複雜菜餚時，在備料階段（低層）需要頻繁查閱食譜，但等到出鍋裝盤階段（高層），廚師早已把食譜內容融會貫通，這時候只需要關注手中正在進行的操作，而不需要每次動手前都回頭看一眼食譜。研究團隊由此產生疑問：既然高層幾乎不看材料檔案，那這些高層的材料檔案還有必要存在嗎？

---

二、核心設計：只在低樓層存檔，高樓層只看自己的進度

SPEED的核心設計思路簡潔而大膽。在一棟32層的大廈里，研究團隊讓材料詞語只在低樓層（比如前24層）建立檔案，到了高樓層（第25層到第32層），這些材料詞語的檔案就不再存入記憶。而AI自己生成的答案詞語，則從第1層到第32層全部建立檔案，一層不少。

從儲存的角度來看，這個改變非常直接。原本需要為每個材料詞語儲存32層檔案，現在只需要存24層，節省了25%的材料檔案空間。而且在AI生成答案的過程中，高層樓完全不需要去翻閱材料檔案，只需要在底層翻閱材料檔案，在所有層翻閱自己之前寫過的答案檔案。這直接加快了生成每個詞的速度。

研究人員為這個設計起了一個形象的名字框架。他們把材料詞語分成兩類：普通材料詞語，以及"錨點"（Anchor）。錨點是一種特殊的材料詞語，即使在高樓層也保留它的檔案。在SPEED的主要版本中，研究團隊只保留了一個錨點，就是每段對話最開頭的那個特殊符號——序列起始符（Beginning of Sequence，簡稱BoS）。

贊助商廣告

為什麼需要這個BoS錨點？早期實驗發現，如果完全沒有任何材料檔案保留到高層，AI在剛開始寫答案的最初幾個詞時，高層樓里幾乎什麼參考都沒有，容易產生混亂，比如會陷入重複循環，不斷重複同樣的詞句。加入這個BoS錨點之後，就像給AI在高樓層留了一個"始終可見的坐標原點"，AI能穩定地知道當前對話的起點在哪裡，生成答案就更加穩定可靠。

用一個具體的類比來說：這就好比一個人在記憶宮殿裡背誦一篇長文章。在宮殿的低層房間裡，他為文章的每個細節都建立了精細的記憶錨點。進入宮殿的高層房間時，他不再需要逐字對照原文，只需要記住自己已經背到了哪裡，以及整個宮殿的大門在哪裡（BoS錨點）。他生成答案的高層思維完全可以在這個框架內自如運轉。

---

三、三種方案的對比：誰存了什麼檔案？

為了說清楚SPEED跟普通AI以及其他方案的區別，研究團隊做了一個清晰的對比框架。他們把參與處理的詞語分成四類：BoS起始符、其餘材料詞語X、之前已生成的答案詞語，以及當前正在生成的詞語。

在普通的全注意力模式（Full-Attn）下，無論是低樓層還是高樓層，AI都能看到所有這四類詞語的檔案，完全不做任何區分。在不帶錨點的SPEED版本里，低樓層仍然能看到全部四類詞語的檔案，但高樓層只能看到之前生成的答案詞語和當前詞語的檔案，材料詞語（包括BoS）的高層檔案全部移除。而在帶BoS錨點的SPEED+BoS版本里，低樓層同樣看到全部內容，高樓層則能看到BoS、之前的答案詞語和當前詞語，唯獨普通材料詞語X的高層檔案被移除。

這個對比揭示了一個微妙但重要的區別：SPEED+BoS並非完全切斷了高層與材料的聯繫，而是保留了一個極輕量的"材料存在感"——僅僅是那個BoS符號。這個最小化的錨點設計，在後續實驗中被證明是一個極其關鍵的穩定因素。

---

四、與其他"省錢方案"的對比：省的地方不一樣

贊助商廣告

在AI推理效率這個領域，已經有不少研究者提出了各種省錢方案。研究團隊特別點名對比了兩個同類方向的方法，叫做SwiftKV和POP，都是在K=24這個參數設置下進行比較的。

SwiftKV的思路是：高層樓的材料檔案不是自己建的，而是從低層樓的檔案變換而來，本質上還是把材料檔案存到了高層，只是換了個廉價的製作方式。POP的思路是：在處理材料階段跳過高層樓的計算，直接把材料資訊投射到高層，但生成答案時高層仍然可以讀取這些材料檔案。

對比實驗數據非常直觀地說明了區別所在。在處理完材料、輸出第一個答案字的速度（TTFT，首字延遲）上，這三種方法在K=24時的提速幅度差不多，都在33%到35%之間。但是在生成每個後續答案字的速度（TPOT，每字生成時間）上，SwiftKV和POP在這個實驗環境下並沒有提速，甚至略有下降，而SPEED在128K長度的材料時提速了22%。在內存占用上，SwiftKV減少了12.5%，POP完全沒有減少，而SPEED減少了25%。

這個差異的根源正在於SPEED的獨特設計：它不只是加快了讀材料的速度，還減少了生成答案時的高層檔案讀取量。前兩者改變的是材料處理階段的工作方式，卻沒有改變生成答案時高層仍然要翻閱材料檔案這一事實。SPEED則根本性地把材料檔案從高層的答案生成視野中移除，讓高層生成答案時更輕鬆快捷。

---

五、實驗一：從頭訓練，結果怎樣？

為了嚴格驗證SPEED的效果，研究團隊做了一個非常嚴謹的對照實驗。他們從Llama-3.1-8B的原始基礎模型出發，用完全相同的數據、完全相同的訓練參數，分別訓練了普通的全深度指令調優模型（Full-IT）和各種SPEED變體。唯一的變量就是材料詞語檔案的深度限制。訓練數據來自一個名為Tulu風格的指令調優數據集，包含約178502個樣本，每個模型都訓練兩輪。

評估方面，研究團隊在一套覆蓋知識、推理、代碼、數學和指令遵循五大類別共11個具體基準測試的體系上進行了全面測試。

贊助商廣告

實驗結果相當令人鼓舞。Full-IT的平均分是51.4分，而IT-SPEED-24+BoS（即材料檔案只建到第24層的BoS錨點版本）得到了51.2分，僅僅差了0.2分。換句話說，把材料檔案深度砍掉25%之後，AI的綜合答題能力幾乎沒有損失。

BoS錨點的作用在數字上體現得非常清楚：同樣是K=24的截斷深度，不帶BoS錨點的版本得了49.1分，而加上BoS錨點之後直接跳到51.2分，足足提升了2.1分，而且這一提升完全不影響效率指標。這意味著那個小小的起始符號，在高層樓里的存在價值遠超其本身的微小計算成本。

不同任務類別對材料檔案深度的敏感程度也有明顯差異。代碼類任務表現出驚人的穩健性：即使在極端激進的K=16設置（材料檔案只建到第16層，砍掉了一半深度）下，代碼得分仍然保持在接近滿深度的水平。數學和指令遵循類任務則相對敏感，在K=16時有明顯下降。知識類和推理類任務在加入BoS錨點後獲益最大，說明這兩類任務需要一個穩定的材料參考點，但不需要所有材料的高層全深度檔案。

在效率數字上，128K超長材料場景下，IT-SPEED-24+BoS的表現如下：首字生成速度比Full-IT快33%，後續每字生成速度快22%，活躍KV緩存內存減少25%。這三項指標同時改善，而不是拿質量換速度，是這個方法最重要的特點。

---

六、實驗二：輕量級適配，不從頭訓練行不行？

從頭用大量數據訓練一個模型的成本很高。研究團隊也測試了一條更輕便的路徑：從已經訓練好的Llama-3.1-8B-Instruct指令模型出發，只用極少量的特定任務數據做一輪LoRA微調（一種只更新模型參數的極小子集的微調技術），然後應用SPEED的材料檔案截斷策略。

這個實驗的場景是：用HotpotQA這個多跳文檔問答數據集的偽標註訓練數據做一輪微調，然後評估模型在HotpotQA、TriviaQA、NaturalQuestions和S-NIAH（一種合成的長上下文檢索測試）上的表現。

實驗結果表明，適度的SPEED截斷與完整深度的LoRA微調相比，差距非常小。具體來說，OffShelf-FT-SPEED+BoS-24在HotpotQA上得到59.5/73.7的精確匹配/F1分數，在TriviaQA上得到81.4/86.5，在S-NIAH上得到99.6，而完整深度LoRA在這三項上分別是60.8/75.3、80.5/86.0、97.7。其中有趣的是，SPEED版本在TriviaQA和S-NIAH上反而略高於完整深度LoRA，說明SPEED適配並非簡單地以質量換效率，在某些場景下甚至能略有超越。

贊助商廣告

由於訓練數據來自HotpotQA，TriviaQA和S-NIAH的結果可以看作是泛化遷移能力的檢驗。SPEED版本在這些非訓練任務上的表現，說明它保留了文檔問答和長上下文檢索的基本能力，而不只是在訓練任務上過擬合。

---

七、逐層診斷：為什麼偏偏K=24是個好選擇？

選擇在第幾層截斷材料檔案，不能靠拍腦袋。研究團隊做了一套逐層診斷分析，通過觀察Full-IT模型在生成答案時每一層的行為特徵，來理解不同層次在處理資訊時的"職能分工"。

他們重點觀測了三個指標。第一個是"注意力質量"：生成中的答案詞語在各層對材料詞語的注意力總量，反映AI在這一層"有多在意"材料內容。第二個是"條件提示熵"：把注意力重新歸一化在材料詞語範圍內計算資訊熵，熵越低說明AI對材料的關注越集中、越有選擇性，而不是漫無目的地均勻分布在所有材料詞語上。第三個是"表示穩定化"：追蹤隱藏狀態在各層之間的軌跡曲率變化，曲率趨於平穩意味著資訊處理趨於穩定，這個指標的峰值層通常反映了模型對當前資訊"達成穩定理解"的位置。

診斷結果揭示了一個重要的規律。對於推理類和知識類任務，注意力總量在第1層就達到峰值，但條件提示熵直到第13、14層才降到最低點。這意味著低層對材料的關注是廣泛而模糊的，而有選擇性地精準提取關鍵材料資訊，要到中間層才完成。表示穩定化的峰值則更晚，出現在第17到19層。

這個規律解釋了為什麼K=16不夠好：雖然它覆蓋了注意力峰值層，但在選擇性材料提取完成之前就截斷了，留給"消化理解"階段的層次太少。K=20好一些，但表示穩定化峰值之後的緩衝層數還不充足。K=24則完整覆蓋了從廣泛關注到精準選擇再到表示穩定的全過程，並且在截斷點之後還有一定的緩衝餘地。K=28則更保守，質量與Full-IT幾乎沒有差異，但效率提升也相應減小。

代碼類任務是一個明顯的例外。它的注意力峰值和條件提示熵最低點都在第3層就出現了，意味著代碼任務的關鍵材料提取發生得很早。這與實驗結果完全吻合：代碼類得分在各種截斷深度下都保持穩健。這說明不同任務對材料檔案深度的需求確實不同，K=24是一個在廣泛任務上都表現良好的折中選擇，而不是一個對所有任務都絕對最優的通用答案。

贊助商廣告

---

八、拆解實驗：高層的答案詞語之間的對話能省掉嗎？

SPEED移除了高層的材料檔案，但保留了高層答案詞語之間的相互注意力。有人可能會問：既然高層不看材料了，那高層答案詞語之間的相互聯繫是不是也可以省掉呢？

研究團隊設計了一個"SelfOnly"變體來回答這個問題。SelfOnly和SPEED一樣截斷了材料的高層檔案，但更進一步，讓高層的每個詞只能看自己，看不到其他答案詞語（加上可選的BoS錨點）。

實驗結果明確否定了這種進一步簡化的可行性。SelfOnly-24+BoS的平均分是47.2分，而IT-SPEED-24+BoS是51.2分，相差整整4分，所有類別都有明顯下降。這說明高層答案詞語之間的相互注意力是不可或缺的——AI在高層樓里雖然不需要翻閱材料檔案，但它確實需要能看到自己已經寫了什麼，並且在此基礎上考慮下一步怎麼寫。

這個發現澄清了SPEED效率提升的真正來源：省掉的是"高層反覆翻閱大量材料檔案"這部分開銷，而不是"高層答案詞語之間的推理思考"。後者無論如何都不能省，這也是為什麼SPEED強調"深層解碼"——答案生成部分在所有層都保持完整的計算深度。

---

九、穩定性測試：會不會變成"複讀機"？

研究團隊還專門分析了一個容易被忽視的失效模式：AI是否會因為高層缺乏材料參考，而陷入重複生成同樣詞語的循環（俗稱"複讀機"現象）。

他們定義了一個精確的檢測標準：檢查每個生成輸出的最後256個詞，如果某個連續重複的片段長度達到12個詞以上，並且重複了至少3次，就被標記為一次後綴重複循環。

數據結果顯示，不帶BoS錨點的SPEED-24版本，後綴重複循環率達到2.1%（對比Full-IT的0.4%），在PopQA和GSM數學題上尤為明顯，分別達到10.3%和3.1%。而加上BoS錨點之後，IT-SPEED-24+BoS的循環率降至0.7%，非常接近Full-IT的基準水平。這再一次印證了那個微小的BoS錨點在維持生成穩定性上的關鍵作用。

贊助商廣告

---

十、長文章魯棒性：超長材料時會不會垮掉？

研究團隊還評估了SPEED在不同材料長度下的表現魯棒性，特別是針對極長材料場景。他們使用了TriviaQA（自然變化長度的文檔問答）和S-NIAH（合成的超長上下文檢索測試，材料長度最長約13萬詞）兩個測試集，按材料長度分桶統計精確匹配得分。

結果顯示，IT-SPEED-24+BoS和IT-SPEED-28+BoS在各個長度段上都與Full-IT保持接近，沒有出現隨著材料長度增加而明顯下滑的趨勢。即使在最長的64K到128K段，SPEED的中等截斷版本仍然保持了較好的檢索和問答能力。只有K=16的激進截斷版本在較長材料時出現了明顯下降，這與主實驗的結論一致。

---

十一、訓練效率的意外收穫

雖然SPEED主要是為了改善推理效率而設計，但研究團隊也順帶測量了在下游LoRA微調訓練階段的效率影響。結果發現，SPEED在訓練時也能帶來顯著的吞吐量提升。在同等硬體配置下，IT-SPEED-24+BoS的訓練速度比完整深度版本快約29%（從2213.8 tokens/s/GPU提升到2863.1 tokens/s/GPU），GPU時長從8小時19分鐘縮短到6小時26分鐘。有意思的是，GPU峰值內存的降低非常有限（從63.4GB降到61.6GB），說明訓練時的主要收益來自計算速度而不是內存節省，這與推理時的效率改善來源略有不同。

---

十二、局限性與邊界條件

研究團隊對這個方法的局限性保持了相當坦誠的態度。他們明確指出，SPEED的行為取決於截斷深度K的選擇、錨點設計、適配方式、材料和答案的長度、任務分布以及模型架構，並非在所有場景下都能無縫使用。

當前所有實驗都在32層的Llama-3.1-8B架構上進行，評估的截斷深度只有K=16、20、24、28這幾個固定值，還沒有測試自適應深度策略，也沒有在其他架構規模或其他類型的模型上驗證。此外，論文中的質量評估是控制條件下的多次運行結果對比，並非統計等價性測試，小幅差距需要理解為當前實驗設置下的證據，而不是淺層預填充完全無損的證明。

贊助商廣告

在實際部署方面，實測的TTFT和TPOT提升依賴於具體的推理棧實現。論文中的效率數字是在單卡、批量為1的標準配置下測量的，如果結合連續批處理、前綴共享、推測解碼等更複雜的服務系統，實際提升幅度可能有所不同，需要在目標部署環境下重新評估。

---

說到底，SPEED做的事情其實是一次關於"什麼值得記憶、什麼不值得記憶"的重新審視。大多數現有的AI加速方案都在想辦法"把已經存下來的筆記壓縮得更小"或者"更快地翻筆記"，而SPEED直接問了一個更根本的問題：有些筆記從一開始就不需要存在高層，為什麼還要存？

答案是：對於超過四分之一深度的樓層，材料筆記確實可以不存。只需要留一個最簡單的起點標記作為錨點，AI就能在這些高層樓里專注地推敲自己正在寫的答案，而不用每次都拖著厚重的材料檔案箱往返。

這對普通用戶意味著什麼？每次你用AI處理一份超長文檔、做長篇問答或者分析大段代碼時，背後的計算資源和等待時間，都有機會通過這類方法顯著降低。當AI服務變得更便宜更快速時，受益的是每一個有需求的人。

如果你對這個研究方向感興趣，可以思考這樣一個有趣的延伸問題：如果不同的任務類型（比如代碼、數學、知識問答）對材料檔案深度的需求確實不一樣，未來是否可以讓AI根據問題類型自動選擇最合適的截斷深度，而不是對所有問題都用同一個K值？這個方向在論文中被明確列為未來工作，目前還沒有答案，但這或許就是下一步研究的有趣起點。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2605.06105查閱完整原文。

---

Q&A

Q1：SPEED方法是否需要重新訓練AI模型才能使用？

A：SPEED有兩種使用路徑。最佳效果需要從基礎模型重新進行指令調優訓練，在訓練時就告訴模型材料詞語只在低層建檔，這樣模型能完全適應這種限制。但研究也發現，從已有的指令模型出發，只做一輪輕量級LoRA微調（只更新模型參數的極小子集）也能獲得接近的效果，不必從頭訓練。不建議直接把訓練好的普通模型在推理時強行使用SPEED，這種"事後硬切"的方式在K=24時質量下降非常明顯。

贊助商廣告

Q2：SPEED方法中BoS錨點為什麼只保留一個符號就夠用了？

A：這個問題的答案體現在兩組對比數據里。不帶BoS錨點的K=24版本平均分49.1，加上BoS後跳到51.2，提升了2.1分；同時後綴重複循環率從2.1%降到0.7%。研究認為，BoS作為序列的第一個符號，在模型訓練中始終是一個穩定的參考點，高層能看到它就相當於始終知道"當前對話從哪裡開始"，足以提供基本的定向穩定性，不需要保留整個材料的高層檔案。

Q3：SPEED在不同類型任務上效果差異大嗎，代碼任務為什麼特別不怕截斷？

A：差異確實存在。代碼任務在K=16（截掉一半深度）時仍然保持接近滿分的表現，而數學和指令遵循類任務在K=16時下降明顯。逐層診斷解釋了這一點：代碼任務的關鍵材料提取發生在極早的第3層，之後模型對材料的關注已經完成了精細化處理，高層保不保留材料檔案影響不大。相比之下，知識推理類任務的精細材料選擇要到第13、14層才完成，需要更深的材料檔案才能穩定。