紐約大學、哥倫比亞大學等多機構聯手：AI大模型記憶壓縮技術重大突破，速度提升8.8倍的秘密

這項由紐約大學、哥倫比亞大學、馬里蘭大學、普林斯頓大學、哈佛大學及蘿倫斯利弗莫爾國家實驗室等多家頂級機構聯合完成的研究，於2026年6月發表在預印本平台arXiv上，論文編號為arXiv:2606.09659。感興趣的讀者可通過該編號查詢完整原文。

贊助商廣告

**每次聊天都要"重新看書"的AI，有多低效？**

假設你有一位記憶力極差的助手。每次你問他問題之前，他都必須把一本厚厚的參考書從頭到尾完整地看一遍，哪怕你只是想問其中一頁上的一個小知識點。更糟糕的是，隨著這本書越來越厚，他看書的時間越來越長，占用的書桌空間也越來越大，有時候書太厚甚至根本放不下。這就是當今主流的大語言模型（也就是ChatGPT、DeepSeek 紐約大學哥倫比亞大學等多機構聯手AI大模型記憶壓縮技術重大突破速度提升88倍的秘密這類AI）在處理長篇內容時面臨的真實困境。

這個"書桌空間"在技術上叫做KV緩存（Key-Value Cache），可以理解為AI在處理一段文字時臨時儲存的"工作筆記"。用戶輸入的文字越長，這份筆記就越厚，占用的電腦內存就越多，處理速度也越慢。在實際的AI服務中，當用戶上傳一篇幾十萬字的長文檔讓AI分析時，這個問題會變得極其嚴峻——不僅僅是速度慢，有時候根本就放不下。

面對這個痛點，研究界已經有人嘗試解決，但走的是"刪減筆記"的路子，也就是把那份工作筆記中不重要的部分直接扔掉。這種方法叫做KV緩存壓縮。然而這條路也充滿麻煩：要麼刪得太猛，AI忘了太多重要資訊，回答質量大幅下降；要麼刪得太保守，省下來的空間寥寥無幾；更頭疼的是，有些刪法需要先知道用戶將要問什麼問題，才能決定刪哪裡，這就好像你必須先猜出學生期末考什麼題，才能決定教材哪些頁可以撕掉。

這項最新研究選擇了一條完全不同的道路：與其刪減筆記，不如換一種更聰明的記錄方式。研究團隊把這套全新方法稱為"潛在上下文語言模型"，英文縮寫為LCLM（Latent Context Language Models）。他們的核心思路是，先讓一個專門的"速記員"把原始文字壓縮成簡短的"語義摘要符號"，再把這些符號交給AI去理解和回答，而不是讓AI直接面對大量原始文字。這個速記員不是在刪減內容，而是在用一種更緊湊的方式重新編碼資訊，類似於把一段話翻譯成更簡潔的符號語言，但語義完整保留。

贊助商廣告

實驗結果相當亮眼。在標準的長文理解測試中，LCLM在達到同等準確率的情況下，處理速度比現有最好的方法快了8.8倍；在處理更長的64000字文檔時，速度提升也達到了5.2倍。更重要的是，這項技術與現有的主流AI推理引擎完全兼容，不需要對底層系統做任何改動，這對於工業界的實際部署來說意義重大。

---

**一、AI為什麼越來越"健忘"——問題的根源**

要真正理解這項研究的價值，先得搞清楚AI處理長文本時到底在幹什麼，以及為什麼會出問題。

當一個大語言模型讀取一段文字時，它並不像人類那樣真正"理解"每個字。它的工作方式更像是一個精密的計算過程：把每個詞轉換成一串數字，然後計算這些數字之間的關係（哪些詞和哪些詞關聯更緊密），最終生成回答。在這個過程中，模型需要把每個詞的"關鍵資訊"和"值資訊"（這就是KV的由來，K代表Key，V代表Value）臨時儲存起來，以便後續計算時調用。

這就好像一個學生做數學題時，把每一步的中間結果都寫在草稿紙上，防止後面計算時忘記。這張草稿紙就是KV緩存。輸入的文字越長，草稿紙就越大，占的桌面空間越多，翻找起來也越費時間。

現有的改進方案主要有三種思路。第一種是"精簡草稿紙"，也就是KV緩存壓縮：想辦法判斷哪些中間結果不重要，直接丟掉。這類方法的代表包括SnapKV、KVzip、Expected Attention等。第二種是"改造計算方式"，比如把原來的注意力機制替換成線性複雜度的變體，或者使用Mamba這類狀態空間模型，讓計算量不隨文本長度平方增長。第三種就是這篇論文主推的"軟令牌壓縮"——用一個編碼器先把原始文字壓縮成少量的連續向量（研究者稱之為軟令牌或潛在令牌），再把這些向量交給解碼器處理。

第一種方法的根本問題在於，它需要先完整處理一遍所有文字，才能判斷哪些部分可以刪除，所以在時間上並沒有真正節省。而且，如果AI服務的是多個不同用戶的問題，每個用戶的側重點不同，同一份壓縮過的緩存很難同時服務好所有人。還有一個工程上的頭疼問題：一些方法會在不同的注意力頭（可以理解為AI大腦里負責不同方面的思考單元）之間不均勻地刪減緩存，導致整個系統的數據結構變得參差不齊，無法利用現代GPU的批量並行計算優勢，實際上反而更慢了。

贊助商廣告

軟令牌壓縮從理論上解決了這些問題，但之前的工作從未真正做到足夠好用——要麼只在特定任務上表現不錯，換個場景就崩潰；要麼需要針對每個具體用途重新訓練，缺乏通用性；要麼壓縮質量太差，資訊損失太大。這就是這篇論文試圖突破的核心挑戰。

---

**二、"速記員+解讀員"的協作架構——LCLM是怎麼工作的**

LCLM的結構設計其實並不複雜，但細節上有很多精心的考量。可以用一個翻譯團隊來理解它的工作流程：有一位專門負責速記和壓縮的"前期處理員"（編碼器），一個負責把壓縮內容轉換成另一種語言的"翻譯適配器"（適配器），以及一位負責理解壓縮內容並回答問題的"主分析員"（解碼器）。

編碼器的工作是把原始文字切成一段一段，每段壓縮成一個或幾個"意義膠囊"（也就是潛在向量）。具體來說，研究團隊把輸入文字切成固定大小的窗口，每個窗口包含1024個詞，編碼器處理完這個窗口後，通過一種叫"平均池化"的方式把多個詞的資訊合併成少量的向量。以16倍壓縮率為例，1024個詞會被壓縮成64個向量——相當於把一本小冊子壓縮成一頁紙的要點符號。

這裡有一個設計選擇值得特別說明：編碼器用的是"因果注意力掩碼"（causal attention mask），而非雙向注意力（bidirectional attention）。通俗來說，雙向注意力允許每個詞同時看到它前面和後面的內容，而因果注意力只允許每個詞看到它之前的內容。直覺上，雙向注意力似乎能捕捉更多資訊，因為它看得更全面。但研究團隊通過大量實驗發現，因果注意力在壓縮任務上效果反而更好——這個反直覺的發現很有意思，雖然論文沒有給出完整的理論解釋，但從實驗數據來看差異非常明顯。

編碼器用的具體模型是Qwen3-Embedding-0.6B，這是一個參數規模為6億的嵌入模型，專門優化過用於把文字轉換成向量表示。解碼器則是Qwen3-4B-Instruct-2507，參數規模40億，是一個完整的指令跟隨語言模型。兩者之間還有一個"適配器"，它的作用是把編碼器輸出的向量維度轉換成解碼器能接受的維度，相當於兩種不同插頭之間的轉接頭。

贊助商廣告

這個適配器的設計經歷了反覆比較。研究團隊對比了簡單的兩層全連接網路（MLP適配器）和帶有自注意力機制的複雜適配器。結果令人驚訝：更簡單的MLP適配器在訓練損失和下游任務表現上都更好，而且計算量更小。這再次印證了一個在深度學習界反覆被證明的現象：有時候奧卡姆剃刀原則——最簡單的方案往往就是最好的方案。

整個壓縮過程還有一個重要的工程優勢：編碼器處理不同文本窗口的工作是完全獨立的，可以並行進行。研究團隊在實驗中以128個窗口為一批次同時處理，也就是說每次批量處理可以覆蓋131072個原始詞。這種並行設計讓壓縮速度大幅提升，這也是LCLM在速度上碾壓其他方法的根本原因。

---

**三、從無到有的訓練之路——怎麼讓速記員學會速記**

訓練一個能可靠壓縮資訊的編碼器，比訓練普通語言模型要複雜得多。核心挑戰在於：你沒有"正確答案"可以參照——沒有人標註過"這段話應該被壓縮成這些向量"。研究團隊需要用一種間接的方式來訓練它。

他們的解決方案是一套精心設計的四階段訓練流程，可以理解為廚師學藝的過程：先學會基本刀工，再學炒菜，再做完整菜品，最後精進廚藝。

第一階段是"適配器預熱"。此時編碼器和解碼器都凍結不動（就像把兩位大廚請來但先讓他們旁觀），只訓練中間的適配器。這一步的目的是讓適配器學會如何把編碼器的輸出語言轉換成解碼器能理解的語言，處理了約38.8億個詞的數據。

第二階段是"編碼器解凍"。適配器已經學會了基本的轉換，現在解凍編碼器，讓它和適配器一起優化，但解碼器依然不動。編碼器開始學習如何更好地壓縮資訊，以便適配器能更準確地轉換。這一階段處理了約77.6億個詞。

第三階段是"端到端持續預訓練"，是訓練量最大的階段，處理了約182.5億個詞。此時三個組件全部解凍，但解碼器使用非常小的學習率（相當於非常輕柔地微調，避免把它原有的能力破壞掉）。這是整個訓練流程的主幹階段，讓系統學會協同工作。

贊助商廣告

第四階段是"監督微調"，使用精心篩選的高質量任務數據集，進一步提升模型在推理、長文理解和指令遵循方面的表現。這一階段的數據是特意為壓縮任務定製的：用戶的問題保持不壓縮（原始詞元），而上下文文檔則被壓縮處理，讓模型學會在壓縮狀態下理解和回答問題。

這種逐步解凍的策略不是隨意設計的，它來自於早期實驗中的血淚教訓。研究團隊一開始嘗試把所有組件從一開始就同時訓練，結果訓練過程極不穩定，模型表現很差。原因在於：訓練初期，編碼器輸出的向量對解碼器來說是完全陌生的"噪聲"，解碼器看到這些亂七八糟的輸入，梯度信號會非常混亂，導致兩邊都無法正常學習。逐步解凍的方式讓系統有機會一步一步地適應，就像讓兩個陌生人慢慢了解對方的工作方式，再讓他們配合完成任務。

---

**四、精心調配的"訓練食材"——數據是關鍵**

如果把整個訓練系統比作一道精心烹製的菜餚，那麼訓練數據就是食材。食材的質量和搭配直接決定了最終菜餚的品質。研究團隊在數據構建上下了相當大的功夫，主要準備了三大類訓練數據。

第一類是"交錯式預訓練數據"。這類數據的特別之處在於數據格式的設計：把一段文字切成多個交替的片段，奇數位置的片段用特殊標記包裹起來（表示這部分需要壓縮處理），偶數位置的片段保持原樣（正常詞元形式）。模型學習的目標是：在看到壓縮片段之後，正確預測未被壓縮的片段。

這種"交錯格式"與以前研究的常見做法有本質區別。之前大多數方法把文章的前半段壓縮，後半段作為預測目標，也就是"先壓縮，後預測"的簡單分割方式。交錯格式讓壓縮塊分布在整段文字的各個位置，模型需要學會在文字中的任意位置條件化壓縮上下文來進行預測，而不僅僅是在開頭。這讓模型的理解能力更加靈活健壯。

數據來源覆蓋了網頁文本（來自Common Crawl大規模爬取數據）、代碼（來自Nemotron代碼數據集）、數學和推理類文本，以及專門收集的長文檔數據集。整個預訓練數據集共包含約1.92億個樣本，壓縮前總詞元數達到2837.8億。

贊助商廣告

第二類是"輔助重建數據"。研究團隊發現，如果只訓練"預測接下來的文字"這個目標，模型會學得很快，但容易忽略一些細節資訊。比如，一段文字里某個具體的數字或專有名詞，對於"預測接下來說什麼"這個任務來說可能不那麼重要，但在實際使用中經常需要精確檢索。

為了解決這個問題，他們額外設計了重建任務：把一段文字壓縮成向量，然後讓模型把原始文字逐字重新生成出來。這迫使壓縮向量必須保留足夠精細的資訊，不只是語義層面的理解，還包括具體的詞彙和細節。重建數據覆蓋代碼、文章、數學公式和LaTeX文檔等多種格式，還專門設計了100個不同的提示語模板來要求模型重建，防止模型只學會應對特定的提示格式。

第三類是"監督微調數據"，專門用於第四階段訓練，包含推理題目、長文檔問答、代碼任務和多輪對話。研究團隊對其中部分數據的回答質量不滿意，就用更強的模型（Qwen3-30B和Qwen3-235B）重新生成了更高質量的答案作為訓練目標。整個微調數據集約1732萬個樣本，覆蓋範圍非常廣泛。

在"只訓練重建數據"這條路上，研究團隊曾經走過一段彎路。他們發現，如果只用重建數據訓練，模型確實能很好地重建原文，但完全不能用於任何其他任務，哪怕解碼器是凍結的也不行——這讓他們意識到，重建任務會讓壓縮向量"坍塌"到只能服務重建這一種用途的表示，喪失了通用性。正是這個發現促使他們設計出混合兩類數據的訓練策略。

---

**五、大規模架構搜索——找到最佳設計方案的科學過程**

在開始大規模訓練之前，研究團隊進行了一項系統性的"小型預演"：用相同的基礎模型架構，在相同的種子下隨機初始化所有參數，然後以16倍壓縮率訓練380億個詞，測試各種設計選擇的效果差異。這種從零開始訓練的方式讓他們能幹淨地隔離每個變量的影響，避免因為初始化不同而帶來的混淆。

贊助商廣告

關於池化方式，研究團隊比較了三種方案。第一種是在輸入序列末尾或開頭添加特殊的"池化令牌"，把它的最終隱藏狀態作為壓縮表示，這是目前很多編碼器（比如Qwen3-Embedding-0.6B自帶的EOS池化）使用的方式。第二種是對每個壓縮塊內的所有詞的隱藏狀態取平均值。第三種是把壓縮塊內所有詞的隱藏狀態直接拼接成一個更長的向量。

實驗發現，平均池化和拼接池化的效果都明顯優於特殊令牌池化方式。兩者之間的勝負則取決於壓縮率：在16倍壓縮率下，平均池化略勝；在4倍壓縮率下，拼接池化略勝。這背後有一定的直覺：壓縮率越低，每個潛在向量需要承載的資訊就越多，拼接方式能完整保留N個獨立表示的優勢就越明顯；壓縮率越高，資訊已經被高度濃縮，平均池化的平滑效果反而更有利於保留全局語義。由於研究的主要關注點是高壓縮率場景，研究團隊選擇平均池化作為默認設置。

關於編碼器窗口大小，實驗非常清晰地顯示：窗口從16個詞擴展到256個詞時，預訓練損失大幅下降；繼續擴展到1024個詞時，損失還能進一步降低，但幅度相對較小。理論上，窗口越大，編碼器能看到的局部上下文就越多，對壓縮向量的質量越有利。但窗口不可能無限大，當文檔極長時，必須切分成多個窗口分別處理，每個窗口的邊界處的資訊連接就會受到影響。研究團隊也測試了帶有"邊界重疊"的方案，讓相鄰窗口共享一部分詞的資訊，但實驗發現這個改進並不帶來性能提升，反而增加了計算開銷，因此最終選擇不用重疊，窗口大小固定為1024。

所有這些小規模實驗的結論都在隨後的大規模訓練中得到了驗證：從零開始的實驗結果和真實大規模訓練的結論高度一致，說明這種預演式的架構搜索是可靠的實驗方法。

---

**六、實驗結果大揭秘——和其他方法比究竟好在哪裡**

研究團隊對LCLM進行了全面的基準測試，與多種主流KV緩存壓縮方法進行對比，包括SnapKV、KVzip、FastKVzip、Expected Attention和Attention Matching。為了保證公平比較，所有方法都使用同一個解碼器基礎模型（Qwen3-4B-Instruct-2507），在同一塊H200 GPU上測試，測量指標包括準確率、處理時間（從開始處理到輸出第一個詞的時間，即TTFT）和峰值顯存占用。

贊助商廣告

在RULER測試集上（這是一個專門測試長文本理解能力的合成基準，包含多種任務如單針檢索、多針檢索、變量追蹤、常見詞抽取等），LCLM展現出明顯優勢。以4K長度的文本為例，16倍壓縮率下LCLM準確率達到75.06%，處理速度是最接近的競爭對手的8.8倍；8倍壓縮率下準確率上升到85.42%，4倍壓縮率下進一步提升到91.76%，已經相當接近不做任何壓縮時的94.41%。

KV緩存壓縮方法在速度上吃了大虧：它們的處理時間與壓縮率幾乎無關，因為無論目標壓縮率是多少，它們都必須先完整處理一遍整個文檔生成完整的KV緩存，之後的"刪減"操作相比之下可以忽略不計。這就是為什麼在對比圖中，所有KV緩存方法都呈現為幾乎垂直的豎線——橫軸是時間，豎線意味著無論準確率如何變化，時間幾乎不變，都等於完整處理一遍文檔所需的時間。LCLM則完全不同，它在處理文檔時就直接生成壓縮表示，高壓縮率意味著解碼器需要處理的序列更短，速度優勢最為明顯。

在LongBench測試（一個覆蓋真實長文理解任務的綜合基準，包含文檔問答、摘要、資訊檢索等16個英文子任務和5個中文子任務）上，LCLM在64K長度的文檔下同樣建立了新的帕累托前沿（意思是在準確率-速度的權衡關係上找到了以前方法無法同時達到的組合），速度優勢約5.2倍。

內存占用方面的數據也頗具參考價值。研究團隊測試了從4K到1M（百萬級）詞元長度的全範圍性能。Attention Matching方法在512K詞元時因內存不足而失敗，其他KV緩存方法在1M詞元時也無法運行；而LCLM在16倍壓縮率下，從128K到512K詞元的內存占用幾乎保持不變——這是因為在這個區間內，主要內存開銷來自編碼器處理每批窗口所需的激活內存，而不是解碼器的KV緩存。只有當文檔極長（超過512K詞元）時，解碼器處理壓縮後的序列才開始主導內存消耗，曲線才再次上升。

在GSM8K測試（一個短小精悍的小學數學題集，每道題只有幾百個詞）上，LCLM同樣表現出色，在16倍、8倍和4倍壓縮率下都大幅領先其他方法。這個結果說明LCLM不僅擅長處理長文檔，對於密集資訊的短文本同樣有效，展現出良好的通用性。

贊助商廣告

---

**七、給AI裝上"導航+精讀"功能——智能體應用探索**

研究團隊不滿足於僅僅展示靜態壓縮的效果，還進一步探索了一種更具創意的應用場景：把LCLM變成一個能主動管理自己記憶的智能體。

設想這樣一個場景：一位程序員需要讓AI幫他找一個複雜代碼庫（幾十個文件，總共幾萬行代碼）里的Bug。如果把整個代碼庫不壓縮地塞給AI，大多數現有模型根本放不下；如果用傳統搜索先定位相關文件，但Bug所在的那個文件可能完全不包含錯誤描述里提到的任何關鍵詞（比如，報告說"用戶登錄失敗"，但真正的Bug在一個負責權限驗證的內部模組裡，文件名和內容都不包含"登錄"這個詞）。

LCLM智能體的解決方案結合了兩種能力：先把整個代碼庫用16倍壓縮率全部壓縮，讓AI在有限內存里獲得對整個代碼庫的"鳥瞰視角"；然後給AI一個工具——EXPAND（展開），AI可以通過調用EXPAND(文件名, 段落編號)來把某段壓縮內容還原成原始代碼，進行精讀。

這個設計的精妙之處在於：AI不再是盲目地在壓縮版本里猜答案，而是能先從全局視角判斷"哪裡最有可能有問題"，再有針對性地展開精讀，就像一個偵探先瀏覽完整案件檔案，判斷出哪個嫌疑人最值得深入調查，再集中精力對那個嫌疑人展開詳細審訊。

在RULER測試集的"針在草堆里"任務（測試AI能否在大量干擾資訊中精確找到一個特定的值）上，加上智能體擴展功能的LCLM表現大幅提升。以8K長度文本為例，LCLM智能體的平均準確率從72.51%躍升至92.46%，提升了接近20個百分點；在最難的"3針"任務（文本里埋了3個目標值，都要找到）上，準確率從55.80%直接跳到97.00%，提升了41.2個百分點。在某些測試設置下，加上智能體功能的LCLM甚至能匹配完全不壓縮的原始模型表現。

研究團隊也坦誠地指出，這只是一次初步探索。如何讓AI學會更智能地決策哪些部分需要精讀、什麼時候應該請求展開，以及如何端到端地學習這種自適應展開策略，都是值得未來深入研究的方向。

贊助商廣告

---

**八、研究的局限與未來展望**

任何研究都不是完美的，這項工作也有一些值得關注的局限性。

在編碼器和解碼器的規模配比上，研究團隊發現增大解碼器的規模（從4B升到8B）比增大編碼器的規模（從0.6B升到4B）更能帶來預訓練損失的下降。然而，當真正落實到下游任務的準確率時，結果卻出現了分化：較小的0.6B編碼器配合4B解碼器在RULER測試上表現最好，而4B編碼器配合4B解碼器在其他評測上更占優勢。這說明縮放規律在這個架構下還沒有被完全摸清，不能簡單套用"更大就是更好"的結論。對於8B解碼器表現不如預期的問題，研究團隊認為可能與訓練數據分布有關：他們的數據配方是針對4B指令模型調優的，而8B模型是一個混合思維模型，可能需要不同的數據策略才能發揮潛力。

此外，儘管LCLM的設計與主流推理框架（如vLLM和SGLang）完全兼容，但目前的測試使用的是HuggingFace Transformers的標準實現，並沒有充分利用這些推理框架的高級優化功能。研究團隊在論文中特別提到，他們報告的速度數據是相對保守的估計，優化後的部署版本應該能做得更好。

從未來方向來看，這套架構有幾個自然的延伸空間。一是自適應壓縮率：不是給整篇文檔統一用16倍或8倍壓縮，而是根據每個段落的資訊密度動態調整——資訊量大的地方壓縮少一點，平鋪直敘的地方壓縮多一點，類似於有損壓縮圖片時對於高頻細節區域用更高精度保存。二是把壓縮範圍擴展到模型生成的內容：目前LCLM只壓縮輸入上下文，但在長時間的對話或長鏈式推理過程中，模型自己生成的內容也會越來越長，如果能把已經處理過的生成內容也壓縮起來，可以進一步延伸工作窗口。三是與遞歸語言模型框架的結合，讓LCLM成為能處理更長時間跨度的持久記憶系統的一部分。

---

說到底，這項研究的意義在於它真正做到了別人想做卻沒做好的事：用一種端到端訓練的通用壓縮器，在保持模型能力的同時大幅提升了處理長文本的速度和內存效率。它不是針對某個特定任務調優的專用工具，而是一個在各種長文本場景下都能穩定工作的通用方案，這正是工業部署中最需要的特性。

贊助商廣告

對於普通用戶來說，這項技術的意義是：未來你使用AI處理長文檔時，等待時間可能縮短數倍，使用成本可能大幅降低，而AI的回答質量幾乎不會打折扣。對於AI研究界來說，LCLM提供了一個實證上有力的論據：軟令牌壓縮這條路如果訓練得足夠好，是完全可以與KV緩存壓縮方法一較高下的，而且在高壓縮率和超長文本場景下還能建立明顯的優勢。

這項技術仍處於快速發展階段。如果你對更多技術細節感興趣，可以通過論文編號arXiv:2606.09659查詢完整原文，裡面包含詳細的實驗數據表格和消融研究結果。

---

Q&A

Q1：LCLM（潛在上下文語言模型）和普通KV緩存壓縮有什麼本質區別？

A：KV緩存壓縮是先讓AI完整讀完整段文字、生成完整的中間記錄，然後再刪掉不重要的部分；LCLM則是在AI讀文字之前，先用一個獨立的"速記員"（編碼器）把文字壓縮成簡短的向量符號，AI直接讀這些符號就夠了。前者的處理時間和完整讀文一樣長，壓縮率高低基本不影響速度；後者的處理時間隨壓縮率提高而顯著縮短，16倍壓縮率下速度可以快8.8倍以上。

Q2：LCLM壓縮後AI的回答質量會損失多少？

A：損失程度因壓縮率而異。以RULER標準測試集為基準，不壓縮時準確率約94%；4倍壓縮後約91%~92%，基本接近原始水平；8倍壓縮後約85%，有一定下降但仍遠優於大多數KV緩存壓縮方法；16倍壓縮後約75%，損失較明顯，但結合智能體擴展工具後可以在關鍵資訊檢索任務上大幅彌補，某些任務甚至能回到接近不壓縮的水平。

Q3：LCLM技術現在能直接用於日常的AI產品嗎？

A：目前LCLM的模型已在HuggingFace上開源（地址：huggingface.co/latent-context），代碼也已公開。這套系統與vLLM、SGLang等主流推理框架完全兼容，技術上已經具備產品化的基礎條件。但要集成進商用AI服務，還需要工程層面的適配和優化工作。研究團隊目前報告的速度數據是在HuggingFace Transformers標準實現下測得的，經過專業推理框架優化後預計還會進一步提速。

贊助商廣告