這項由首爾國立大學數據科學研究生院主導的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.06105,有興趣深入了解的讀者可以通過該編號查詢完整論文。
每次你問AI一個問題,它都要先把你給它的所有材料從頭到尾讀一遍,然後才開始回答。這個"讀材料"的過程,在AI技術里叫做"預填充"(Prefill),而隨後逐字生成答案的過程叫做"解碼"(Decode)。當你給AI的材料特別長,比如一份幾萬字的合同、一本書,或者一段長達十幾萬字的代碼庫時,這個"讀材料"的過程會變得極度耗時耗電,而且AI在回答每一個字時,都要反覆翻閱之前存下來的所有"筆記",速度越來越慢,內存占用也越來越大。
首爾國立大學的研究團隊提出了一個聽起來有點反直覺的解決思路:AI在讀材料時,只需要在大腦的"底層區域"做詳細筆記,到了大腦的"高層區域",就可以把這些材料筆記扔掉,只保留自己正在寫的答案部分。他們把這個方法叫做SPEED,全稱是"淺層預填充、深層解碼"(Shallow Prefill, dEEp Decode)。實驗結果顯示,這個方法在保持AI答題質量幾乎不變的情況下,讓AI回答第一個字的速度提升了33%,回答每一個後續字的速度提升了22%,占用的記憶空間減少了25%。
---
一、為什麼AI讀長文章這麼費勁?
要理解這個研究解決了什麼問題,得先明白AI是怎麼處理資訊的。現代的大型語言模型,比如大家熟悉的各類聊天AI,在結構上是一座"多層樓大廈"。以這篇論文用的Llama-3.1-8B模型為例,這座大廈有32層。資訊從第1層輸入,一層一層往上處理,最後從第32層輸出答案。
當你給AI一段很長的文字材料時,AI會先把這段材料的每個詞語,在這座大廈的每一層樓都做一份"鑰匙和鎖"的記錄(專業上叫KV緩存,Key-Value Cache)。你可以把它理解成每個詞在每一層樓都留了一份檔案。一段128000個詞的文章,乘以32層樓,就是海量的檔案儲存量。
更麻煩的是,當AI開始生成答案時,它每生成一個新詞,都要去翻閱材料里所有詞的檔案——而且要翻閱所有32層樓的檔案。這就好比一個學生在考試寫作文時,每寫一個字,都要把整本參考書的每一頁重新翻看一遍,效率極低,而且書越厚越慢。
研究人員觀察到一個關鍵現象:AI在高層(比如第25層到第32層)對材料內容的關注度,遠比在中低層時要低得多。用一張熱力圖來看,AI在中間層對材料的注意力非常集中,但到了高層,這種注意力幾乎消失了,AI的高層主要在關注它自己正在生成的答案詞語之間的關係。
這就像一個廚師在做一道複雜菜餚時,在備料階段(低層)需要頻繁查閱食譜,但等到出鍋裝盤階段(高層),廚師早已把食譜內容融會貫通,這時候只需要關注手中正在進行的操作,而不需要每次動手前都回頭看一眼食譜。研究團隊由此產生疑問:既然高層幾乎不看材料檔案,那這些高層的材料檔案還有必要存在嗎?
---
二、核心設計:只在低樓層存檔,高樓層只看自己的進度
SPEED的核心設計思路簡潔而大膽。在一棟32層的大廈里,研究團隊讓材料詞語只在低樓層(比如前24層)建立檔案,到了高樓層(第25層到第32層),這些材料詞語的檔案就不再存入記憶。而AI自己生成的答案詞語,則從第1層到第32層全部建立檔案,一層不少。
從儲存的角度來看,這個改變非常直接。原本需要為每個材料詞語儲存32層檔案,現在只需要存24層,節省了25%的材料檔案空間。而且在AI生成答案的過程中,高層樓完全不需要去翻閱材料檔案,只需要在底層翻閱材料檔案,在所有層翻閱自己之前寫過的答案檔案。這直接加快了生成每個詞的速度。
研究人員為這個設計起了一個形象的名字框架。他們把材料詞語分成兩類:普通材料詞語,以及"錨點"(Anchor)。錨點是一種特殊的材料詞語,即使在高樓層也保留它的檔案。在SPEED的主要版本中,研究團隊只保留了一個錨點,就是每段對話最開頭的那個特殊符號——序列起始符(Beginning of Sequence,簡稱BoS)。
為什麼需要這個BoS錨點?早期實驗發現,如果完全沒有任何材料檔案保留到高層,AI在剛開始寫答案的最初幾個詞時,高層樓里幾乎什麼參考都沒有,容易產生混亂,比如會陷入重複循環,不斷重複同樣的詞句。加入這個BoS錨點之後,就像給AI在高樓層留了一個"始終可見的坐標原點",AI能穩定地知道當前對話的起點在哪裡,生成答案就更加穩定可靠。
用一個具體的類比來說:這就好比一個人在記憶宮殿裡背誦一篇長文章。在宮殿的低層房間裡,他為文章的每個細節都建立了精細的記憶錨點。進入宮殿的高層房間時,他不再需要逐字對照原文,只需要記住自己已經背到了哪裡,以及整個宮殿的大門在哪裡(BoS錨點)。他生成答案的高層思維完全可以在這個框架內自如運轉。
---
三、三種方案的對比:誰存了什麼檔案?
為了說清楚SPEED跟普通AI以及其他方案的區別,研究團隊做了一個清晰的對比框架。他們把參與處理的詞語分成四類:BoS起始符、其餘材料詞語X、之前已生成的答案詞語,以及當前正在生成的詞語。
在普通的全注意力模式(Full-Attn)下,無論是低樓層還是高樓層,AI都能看到所有這四類詞語的檔案,完全不做任何區分。在不帶錨點的SPEED版本里,低樓層仍然能看到全部四類詞語的檔案,但高樓層只能看到之前生成的答案詞語和當前詞語的檔案,材料詞語(包括BoS)的高層檔案全部移除。而在帶BoS錨點的SPEED+BoS版本里,低樓層同樣看到全部內容,高樓層則能看到BoS、之前的答案詞語和當前詞語,唯獨普通材料詞語X的高層檔案被移除。
這個對比揭示了一個微妙但重要的區別:SPEED+BoS並非完全切斷了高層與材料的聯繫,而是保留了一個極輕量的"材料存在感"——僅僅是那個BoS符號。這個最小化的錨點設計,在後續實驗中被證明是一個極其關鍵的穩定因素。
---
四、與其他"省錢方案"的對比:省的地方不一樣
在AI推理效率這個領域,已經有不少研究者提出了各種省錢方案。研究團隊特別點名對比了兩個同類方向的方法,叫做SwiftKV和POP,都是在K=24這個參數設置下進行比較的。
SwiftKV的思路是:高層樓的材料檔案不是自己建的,而是從低層樓的檔案變換而來,本質上還是把材料檔案存到了高層,只是換了個廉價的製作方式。POP的思路是:在處理材料階段跳過高層樓的計算,直接把材料資訊投射到高層,但生成答案時高層仍然可以讀取這些材料檔案。
對比實驗數據非常直觀地說明了區別所在。在處理完材料、輸出第一個答案字的速度(TTFT,首字延遲)上,這三種方法在K=24時的提速幅度差不多,都在33%到35%之間。但是在生成每個後續答案字的速度(TPOT,每字生成時間)上,SwiftKV和POP在這個實驗環境下並沒有提速,甚至略有下降,而SPEED在128K長度的材料時提速了22%。在內存占用上,SwiftKV減少了12.5%,POP完全沒有減少,而SPEED減少了25%。
這個差異的根源正在於SPEED的獨特設計:它不只是加快了讀材料的速度,還減少了生成答案時的高層檔案讀取量。前兩者改變的是材料處理階段的工作方式,卻沒有改變生成答案時高層仍然要翻閱材料檔案這一事實。SPEED則根本性地把材料檔案從高層的答案生成視野中移除,讓高層生成答案時更輕鬆快捷。
---
五、實驗一:從頭訓練,結果怎樣?
為了嚴格驗證SPEED的效果,研究團隊做了一個非常嚴謹的對照實驗。他們從Llama-3.1-8B的原始基礎模型出發,用完全相同的數據、完全相同的訓練參數,分別訓練了普通的全深度指令調優模型(Full-IT)和各種SPEED變體。唯一的變量就是材料詞語檔案的深度限制。訓練數據來自一個名為Tulu風格的指令調優數據集,包含約178502個樣本,每個模型都訓練兩輪。
評估方面,研究團隊在一套覆蓋知識、推理、代碼、數學和指令遵循五大類別共11個具體基準測試的體系上進行了全面測試。
實驗結果相當令人鼓舞。Full-IT的平均分是51.4分,而IT-SPEED-24+BoS(即材料檔案只建到第24層的BoS錨點版本)得到了51.2分,僅僅差了0.2分。換句話說,把材料檔案深度砍掉25%之後,AI的綜合答題能力幾乎沒有損失。
BoS錨點的作用在數字上體現得非常清楚:同樣是K=24的截斷深度,不帶BoS錨點的版本得了49.1分,而加上BoS錨點之後直接跳到51.2分,足足提升了2.1分,而且這一提升完全不影響效率指標。這意味著那個小小的起始符號,在高層樓里的存在價值遠超其本身的微小計算成本。
不同任務類別對材料檔案深度的敏感程度也有明顯差異。代碼類任務表現出驚人的穩健性:即使在極端激進的K=16設置(材料檔案只建到第16層,砍掉了一半深度)下,代碼得分仍然保持在接近滿深度的水平。數學和指令遵循類任務則相對敏感,在K=16時有明顯下降。知識類和推理類任務在加入BoS錨點後獲益最大,說明這兩類任務需要一個穩定的材料參考點,但不需要所有材料的高層全深度檔案。
在效率數字上,128K超長材料場景下,IT-SPEED-24+BoS的表現如下:首字生成速度比Full-IT快33%,後續每字生成速度快22%,活躍KV緩存內存減少25%。這三項指標同時改善,而不是拿質量換速度,是這個方法最重要的特點。
---
六、實驗二:輕量級適配,不從頭訓練行不行?
從頭用大量數據訓練一個模型的成本很高。研究團隊也測試了一條更輕便的路徑:從已經訓練好的Llama-3.1-8B-Instruct指令模型出發,只用極少量的特定任務數據做一輪LoRA微調(一種只更新模型參數的極小子集的微調技術),然後應用SPEED的材料檔案截斷策略。
這個實驗的場景是:用HotpotQA這個多跳文檔問答數據集的偽標註訓練數據做一輪微調,然後評估模型在HotpotQA、TriviaQA、NaturalQuestions和S-NIAH(一種合成的長上下文檢索測試)上的表現。
實驗結果表明,適度的SPEED截斷與完整深度的LoRA微調相比,差距非常小。具體來說,OffShelf-FT-SPEED+BoS-24在HotpotQA上得到59.5/73.7的精確匹配/F1分數,在TriviaQA上得到81.4/86.5,在S-NIAH上得到99.6,而完整深度LoRA在這三項上分別是60.8/75.3、80.5/86.0、97.7。其中有趣的是,SPEED版本在TriviaQA和S-NIAH上反而略高於完整深度LoRA,說明SPEED適配並非簡單地以質量換效率,在某些場景下甚至能略有超越。
由於訓練數據來自HotpotQA,TriviaQA和S-NIAH的結果可以看作是泛化遷移能力的檢驗。SPEED版本在這些非訓練任務上的表現,說明它保留了文檔問答和長上下文檢索的基本能力,而不只是在訓練任務上過擬合。
---
七、逐層診斷:為什麼偏偏K=24是個好選擇?
選擇在第幾層截斷材料檔案,不能靠拍腦袋。研究團隊做了一套逐層診斷分析,通過觀察Full-IT模型在生成答案時每一層的行為特徵,來理解不同層次在處理資訊時的"職能分工"。
他們重點觀測了三個指標。第一個是"注意力質量":生成中的答案詞語在各層對材料詞語的注意力總量,反映AI在這一層"有多在意"材料內容。第二個是"條件提示熵":把注意力重新歸一化在材料詞語範圍內計算資訊熵,熵越低說明AI對材料的關注越集中、越有選擇性,而不是漫無目的地均勻分布在所有材料詞語上。第三個是"表示穩定化":追蹤隱藏狀態在各層之間的軌跡曲率變化,曲率趨於平穩意味著資訊處理趨於穩定,這個指標的峰值層通常反映了模型對當前資訊"達成穩定理解"的位置。
診斷結果揭示了一個重要的規律。對於推理類和知識類任務,注意力總量在第1層就達到峰值,但條件提示熵直到第13、14層才降到最低點。這意味著低層對材料的關注是廣泛而模糊的,而有選擇性地精準提取關鍵材料資訊,要到中間層才完成。表示穩定化的峰值則更晚,出現在第17到19層。
這個規律解釋了為什麼K=16不夠好:雖然它覆蓋了注意力峰值層,但在選擇性材料提取完成之前就截斷了,留給"消化理解"階段的層次太少。K=20好一些,但表示穩定化峰值之後的緩衝層數還不充足。K=24則完整覆蓋了從廣泛關注到精準選擇再到表示穩定的全過程,並且在截斷點之後還有一定的緩衝餘地。K=28則更保守,質量與Full-IT幾乎沒有差異,但效率提升也相應減小。
代碼類任務是一個明顯的例外。它的注意力峰值和條件提示熵最低點都在第3層就出現了,意味著代碼任務的關鍵材料提取發生得很早。這與實驗結果完全吻合:代碼類得分在各種截斷深度下都保持穩健。這說明不同任務對材料檔案深度的需求確實不同,K=24是一個在廣泛任務上都表現良好的折中選擇,而不是一個對所有任務都絕對最優的通用答案。
---
八、拆解實驗:高層的答案詞語之間的對話能省掉嗎?
SPEED移除了高層的材料檔案,但保留了高層答案詞語之間的相互注意力。有人可能會問:既然高層不看材料了,那高層答案詞語之間的相互聯繫是不是也可以省掉呢?
研究團隊設計了一個"SelfOnly"變體來回答這個問題。SelfOnly和SPEED一樣截斷了材料的高層檔案,但更進一步,讓高層的每個詞只能看自己,看不到其他答案詞語(加上可選的BoS錨點)。
實驗結果明確否定了這種進一步簡化的可行性。SelfOnly-24+BoS的平均分是47.2分,而IT-SPEED-24+BoS是51.2分,相差整整4分,所有類別都有明顯下降。這說明高層答案詞語之間的相互注意力是不可或缺的——AI在高層樓里雖然不需要翻閱材料檔案,但它確實需要能看到自己已經寫了什麼,並且在此基礎上考慮下一步怎麼寫。
這個發現澄清了SPEED效率提升的真正來源:省掉的是"高層反覆翻閱大量材料檔案"這部分開銷,而不是"高層答案詞語之間的推理思考"。後者無論如何都不能省,這也是為什麼SPEED強調"深層解碼"——答案生成部分在所有層都保持完整的計算深度。
---
九、穩定性測試:會不會變成"複讀機"?
研究團隊還專門分析了一個容易被忽視的失效模式:AI是否會因為高層缺乏材料參考,而陷入重複生成同樣詞語的循環(俗稱"複讀機"現象)。
他們定義了一個精確的檢測標準:檢查每個生成輸出的最後256個詞,如果某個連續重複的片段長度達到12個詞以上,並且重複了至少3次,就被標記為一次後綴重複循環。
數據結果顯示,不帶BoS錨點的SPEED-24版本,後綴重複循環率達到2.1%(對比Full-IT的0.4%),在PopQA和GSM數學題上尤為明顯,分別達到10.3%和3.1%。而加上BoS錨點之後,IT-SPEED-24+BoS的循環率降至0.7%,非常接近Full-IT的基準水平。這再一次印證了那個微小的BoS錨點在維持生成穩定性上的關鍵作用。
---
十、長文章魯棒性:超長材料時會不會垮掉?
研究團隊還評估了SPEED在不同材料長度下的表現魯棒性,特別是針對極長材料場景。他們使用了TriviaQA(自然變化長度的文檔問答)和S-NIAH(合成的超長上下文檢索測試,材料長度最長約13萬詞)兩個測試集,按材料長度分桶統計精確匹配得分。
結果顯示,IT-SPEED-24+BoS和IT-SPEED-28+BoS在各個長度段上都與Full-IT保持接近,沒有出現隨著材料長度增加而明顯下滑的趨勢。即使在最長的64K到128K段,SPEED的中等截斷版本仍然保持了較好的檢索和問答能力。只有K=16的激進截斷版本在較長材料時出現了明顯下降,這與主實驗的結論一致。
---
十一、訓練效率的意外收穫
雖然SPEED主要是為了改善推理效率而設計,但研究團隊也順帶測量了在下游LoRA微調訓練階段的效率影響。結果發現,SPEED在訓練時也能帶來顯著的吞吐量提升。在同等硬體配置下,IT-SPEED-24+BoS的訓練速度比完整深度版本快約29%(從2213.8 tokens/s/GPU提升到2863.1 tokens/s/GPU),GPU時長從8小時19分鐘縮短到6小時26分鐘。有意思的是,GPU峰值內存的降低非常有限(從63.4GB降到61.6GB),說明訓練時的主要收益來自計算速度而不是內存節省,這與推理時的效率改善來源略有不同。
---
十二、局限性與邊界條件
研究團隊對這個方法的局限性保持了相當坦誠的態度。他們明確指出,SPEED的行為取決於截斷深度K的選擇、錨點設計、適配方式、材料和答案的長度、任務分布以及模型架構,並非在所有場景下都能無縫使用。
當前所有實驗都在32層的Llama-3.1-8B架構上進行,評估的截斷深度只有K=16、20、24、28這幾個固定值,還沒有測試自適應深度策略,也沒有在其他架構規模或其他類型的模型上驗證。此外,論文中的質量評估是控制條件下的多次運行結果對比,並非統計等價性測試,小幅差距需要理解為當前實驗設置下的證據,而不是淺層預填充完全無損的證明。
在實際部署方面,實測的TTFT和TPOT提升依賴於具體的推理棧實現。論文中的效率數字是在單卡、批量為1的標準配置下測量的,如果結合連續批處理、前綴共享、推測解碼等更複雜的服務系統,實際提升幅度可能有所不同,需要在目標部署環境下重新評估。
---
說到底,SPEED做的事情其實是一次關於"什麼值得記憶、什麼不值得記憶"的重新審視。大多數現有的AI加速方案都在想辦法"把已經存下來的筆記壓縮得更小"或者"更快地翻筆記",而SPEED直接問了一個更根本的問題:有些筆記從一開始就不需要存在高層,為什麼還要存?
答案是:對於超過四分之一深度的樓層,材料筆記確實可以不存。只需要留一個最簡單的起點標記作為錨點,AI就能在這些高層樓里專注地推敲自己正在寫的答案,而不用每次都拖著厚重的材料檔案箱往返。
這對普通用戶意味著什麼?每次你用AI處理一份超長文檔、做長篇問答或者分析大段代碼時,背後的計算資源和等待時間,都有機會通過這類方法顯著降低。當AI服務變得更便宜更快速時,受益的是每一個有需求的人。
如果你對這個研究方向感興趣,可以思考這樣一個有趣的延伸問題:如果不同的任務類型(比如代碼、數學、知識問答)對材料檔案深度的需求確實不一樣,未來是否可以讓AI根據問題類型自動選擇最合適的截斷深度,而不是對所有問題都用同一個K值?這個方向在論文中被明確列為未來工作,目前還沒有答案,但這或許就是下一步研究的有趣起點。有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2605.06105查閱完整原文。
---
Q&A
Q1:SPEED方法是否需要重新訓練AI模型才能使用?
A:SPEED有兩種使用路徑。最佳效果需要從基礎模型重新進行指令調優訓練,在訓練時就告訴模型材料詞語只在低層建檔,這樣模型能完全適應這種限制。但研究也發現,從已有的指令模型出發,只做一輪輕量級LoRA微調(只更新模型參數的極小子集)也能獲得接近的效果,不必從頭訓練。不建議直接把訓練好的普通模型在推理時強行使用SPEED,這種"事後硬切"的方式在K=24時質量下降非常明顯。
Q2:SPEED方法中BoS錨點為什麼只保留一個符號就夠用了?
A:這個問題的答案體現在兩組對比數據里。不帶BoS錨點的K=24版本平均分49.1,加上BoS後跳到51.2,提升了2.1分;同時後綴重複循環率從2.1%降到0.7%。研究認為,BoS作為序列的第一個符號,在模型訓練中始終是一個穩定的參考點,高層能看到它就相當於始終知道"當前對話從哪裡開始",足以提供基本的定向穩定性,不需要保留整個材料的高層檔案。
Q3:SPEED在不同類型任務上效果差異大嗎,代碼任務為什麼特別不怕截斷?
A:差異確實存在。代碼任務在K=16(截掉一半深度)時仍然保持接近滿分的表現,而數學和指令遵循類任務在K=16時下降明顯。逐層診斷解釋了這一點:代碼任務的關鍵材料提取發生在極早的第3層,之後模型對材料的關注已經完成了精細化處理,高層保不保留材料檔案影響不大。相比之下,知識推理類任務的精細材料選擇要到第13、14層才完成,需要更深的材料檔案才能穩定。






