新加坡國立大學研究：AI助手處理長文本時，能不能做到又快又准？

這項由新加坡國立大學研究團隊完成的研究，以預印本形式於2026年5月發布，論文編號為arXiv:2605.20315，研究提出了一種名為Mix-Quant的推理加速框架，專門針對需要頻繁與環境交互、處理大量文本的AI智能體應用場景。

贊助商廣告

**速度與精度的兩難困境**

當你讓一個AI助手幫你完成一項複雜任務——比如搜索網頁、調用工具、翻閱歷史記錄、寫代碼再自動調試——它其實需要在幕後反覆"讀文章、想問題、寫答案"。每做一步，AI都要把之前所有的對話記錄、工具調用結果、中間推理過程全部重新讀一遍，然後才能決定下一步怎麼做。

這意味著，AI每次思考前要讀的內容，往往比它實際輸出的內容長幾十倍甚至上百倍。研究團隊在實驗中發現，在軟體工程任務場景下，AI需要讀入的輸入文字數量約為22.8萬個詞，而它最終生成的輸出只有約3.9萬個詞，輸入是輸出的將近6倍。在另一個需要長期記憶管理的任務中，這個比例更是高達36倍——AI要讀11萬個詞，卻只輸出3000個詞。這就像一個廚師每次做一道菜之前，都要把整本菜譜從頭到尾背一遍，才能決定下一步加什麼調料。

處理這些海量輸入文字的過程，在AI技術中被稱為"預填充"（prefilling）階段，而之後一個字一個字生成回答的過程叫做"解碼"（decoding）階段。預填充階段就像是工廠里大規模並行運轉的流水線——可以同時處理所有文字，計算量巨大；解碼階段則像是手工一件一件製作的工匠，每次只產出一個詞，速度慢但對每一步的精確性要求極高。

為了讓AI運行得更快，工程師們常用的一個方法叫"量化"（quantization）。這就像把高清照片壓縮成低解析度圖片來節省儲存空間——把AI大腦里本來用高精度浮點數表示的數字，換成更粗粒度的低精度數字，這樣計算量就小了，速度也更快了。目前最激進的量化方案之一叫做FP4，就是只用4個二進制位來表示一個數字（而正常情況下可能要用16個甚至32個位）。

贊助商廣告

然而，問題就出在這裡：把整個AI推理過程都換成FP4低精度運行，速度確實快了，但AI的回答質量卻明顯下降。就像把菜譜印成模糊不清的低清版本，廚師在看配料表時還能勉強認出"鹽"和"糖"，但到了需要精確判斷"加幾克"的時候，就容易出錯，而且一步錯步步錯，最終做出來的菜可能跟預期相差甚遠。

這就是研究團隊面對的核心困境：AI智能體需要快速處理大量輸入，但加速手段又會讓它犯錯。這項研究的核心貢獻，就是找到了一條既能加速又不犧牲精度的路——不是對整個過程一刀切，而是分階段區別對待。

**一、讀文章時可以"馬虎"，但寫答案時必須"認真"**

研究團隊注意到一個關鍵的非對稱性：AI讀文章（預填充階段）和AI寫答案（解碼階段）這兩個階段，對精度的敏感程度完全不同。

在預填充階段，AI只是在把輸入的所有文字統一"消化"一遍，然後把理解結果存進一個叫做"KV緩存"（Key-Value Cache）的臨時記憶庫里。這個階段有幾個重要特性。首先，輸入的文字是固定的，不會因為AI內部計算出了一點點誤差就改變——就算AI在讀文章時理解得不完全精準，原文還是那個原文，不會跑掉。其次，長文本里有大量冗餘資訊。研究團隊做了一個實驗：對於一段12.8萬詞的長文本，他們統計了AI在生成答案時，注意力（attention）主要集中在哪些位置。結果發現，排名前4096個最重要的詞語（只占全部文字的3.125%），平均承載了95.8%的注意力權重。換句話說，絕大多數輸入文字其實對最終答案影響極小，AI主要靠一小部分關鍵內容來推斷答案。這種高度集中的注意力分布，意味著預填充階段即使出現一些量化誤差，那些誤差大多發生在不重要的文字上，對最終理解的影響相當有限。

解碼階段則完全不同。AI每生成一個詞，都是基於之前所有已經生成的詞來決定的。這是一個環環相扣的鏈條——任何一個環節出了偏差，後續所有環節都會受到影響。研究中用公式表達了這個過程：每個時刻t生成的詞yt，依賴於原始輸入x和之前所有已生成的詞y?到y_{t-1}。如果在某一步，低精度量化導致AI把"調用搜索工具"誤寫成了一個無效指令，那麼接下來AI就會基於這個錯誤的指令繼續推理，錯誤就像滾雪球一樣越來越大。學術界把這個現象叫做"雪球效應"——一個小小的初始偏差，會在長序列生成中被不斷放大。在AI需要完成多步驟複雜任務的場景下，比如寫一段代碼、一步錯誤可能導致整個程序邏輯崩塌；比如調用外部工具，參數格式稍有偏差就會讓工具調用失敗；比如多輪對話，一個錯誤的中間狀態會影響所有後續的推理和決策。

贊助商廣告

正是基於這種對兩個階段截然不同特性的認識，研究團隊提出了Mix-Quant的核心思路：預填充階段用激進的低精度量化（FP4）來大幅加速，解碼階段則保持高精度（BF16）來保證質量。BF16是一種比FP4精度高得多的數字表示方式，是目前深度學習中最常用的"標準精度"之一。這就像一個翻譯工作者，在快速瀏覽一份幾十頁的原始資料時可以用"粗讀"的方式提煉要點，但在最終落筆翻譯關鍵段落時，必須字斟句酌，一字不差。

**二、Mix-Quant究竟是怎麼工作的**

Mix-Quant使用的量化格式叫做NVFP4，這是英偉達新加坡國立大學研究AI助手處理長文本時能不能做到又快又准（NVIDIA）專門為其最新一代Blackwell系列顯卡（包括RTX 5090和B200）設計的一種低精度數字格式。普通的低精度格式只是粗暴地把數字"四捨五入"到最近的低精度表示，而NVFP4設計得更為精巧，採用了兩級縮放機制。

以一個形象的比喻來理解這個機制：假設你要把一幅畫從高清版壓縮成低解析度版。最粗暴的做法是直接縮小全圖解析度，整體模糊。而NVFP4的做法更像是先把畫分成很多16個像素一組的小區塊，每個區塊單獨調整對比度（這是"局部縮放"，用FP8 E4M3格式表示），再在整張圖上做一次全局亮度校準（這是"全局縮放"）。兩級調整疊加，使得壓縮後的圖像雖然解析度低了，但整體色調和局部細節都得到了更好的保護。

在數學上，NVFP4對每個數字x?的量化過程是：先用全局縮放因子α?和局部縮放因子σ_b(i)共同對x?進行歸一化，再把歸一化後的值投影到最近的FP4可表示值上。反量化時乘回兩個縮放因子即可恢復近似值。局部縮放因子σ_b基於該區塊內絕對值最大的元素來確定，確保區塊內的最大值能被準確表示。研究團隊發現，由於NVFP4本身的設計已經足夠精細，直接使用最簡單的"就近取整"（RTN）量化策略就能達到很好的效果，不需要額外複雜的量化校準算法，這也大大降低了部署的門檻和運行時的額外開銷。

贊助商廣告

在系統架構上，Mix-Quant採用了"預填充-解碼分離部署"的方式。具體來說，處理輸入文字的預填充工作由專門的"預填充工作節點"完成，這些節點上的模型使用FP4量化版本，跑得飛快；預填充完成後，生成的KV緩存通過一個叫做NIXL的高速傳輸機制，傳給專門負責生成答案的"解碼工作節點"，解碼節點上的模型保持BF16高精度，穩穩噹噹地一個詞一個詞地生成回答。兩套系統分工協作，互不干擾。這種架構的好處是，不需要在單個模型內部來回切換精度，避免了複雜的精度轉換開銷和潛在的數值對齊問題。

**三、實驗驗證：到底快了多少，准了多少**

研究團隊在NVIDIA RTX 5090和B200顯卡上，使用vLLM這個業界主流的大模型推理框架，對Mix-Quant進行了全面測試。他們選取了當前業界表現最強的幾款開源智能體模型：Qwen3-8B（通義千問團隊的80億參數模型）、Qwen3.5-9B（同團隊的下一代90億參數模型）、Gemma-4-26B-A4B-it（谷歌DeepMind的260億參數混合專家模型）和Gemma-4-31B-it（谷歌的310億參數完整版本）。每個模型都在三種狀態下測試：原始BF16高精度版本、全程FP4低精度版本（即"均勻NVFP4"方案），以及Mix-Quant方案。

在速度方面，結果相當亮眼。以Qwen3-8B模型為例，在單個請求、不同輸入長度的場景下，Mix-Quant的預填充階段相比BF16原版快了2.21倍（2000詞輸入）到3.51倍（32000詞輸入）不等。輸入越長，加速效果越明顯，這正好契合了AI智能體任務中輸入文字普遍很長的現實場景。在多個請求同時處理（批量推理）的場景下，隨著批量大小從1增加到32，加速比穩定維持在2.15倍到3.74倍之間。整體來看，Mix-Quant在預填充階段平均實現了約3倍的加速。

在準確性方面，研究團隊使用了五個各具特色的測試基準。BFCL v4測試AI的工具調用和函數調用能力，LongMemEval測試AI在長期多輪對話中管理和檢索歷史記憶的能力，τ?-bench測試AI作為通用助手在複雜狀態對話中的表現，LongBench-V2和AA-LCR則測試AI對長文檔的理解、綜合和推理能力。此外還有數學推理基準MATH500、AIME24和AIME25。

贊助商廣告

以Qwen3-8B為例，原始BF16模型在五個智能體基準上的綜合平均分是42.85分。換成全程FP4量化後，平均分暴跌到38.64分，損失了約10%的性能。而Mix-Quant方案下，平均分恢復到41.45分，幾乎追回了全部損失。在LongMemEval這個測試長期記憶的項目上，FP4量化使分數從57.00驟降至49.82，而Mix-Quant把它拉回到54.85，恢復效果非常明顯。對於更大的Gemma-4-31B-it模型，表現更是令人印象深刻：BF16基準分77.63，全程FP4是76.21，而Mix-Quant達到77.14，幾乎與原始精度持平，這意味著對於這個更大的模型，僅對預填充階段進行量化造成的損失微乎其微。

在數學推理測試中，Mix-Quant同樣展現出一致的優勢。以Qwen3.5-9B為例，BF16版本在AIME24和AIME25上分別取得68.89和60.00的成績，全程FP4量化後分別跌至54.44和40.00，損失相當慘重。Mix-Quant則恢復到70.33和56.67，基本接近原始水平。對於Gemma-4-26B-A4B-it，Mix-Quant在所有五個測試的綜合平均分71.93與BF16的71.94幾乎完全一致，而全程FP4隻有66.31。

**四、分階段消融實驗：進一步驗證哪個階段更敏感**

為了更精確地驗證"解碼階段比預填充階段對量化更敏感"這一核心假設，研究團隊做了一個特別設計的對比實驗。他們把各種量化策略組合做了橫向比較：全程BF16（什麼都不量化）、全程NVFP4（全部量化）、Mix-Quant（只量化預填充，解碼保持BF16），以及一個反向對照——P16D4（預填充保持BF16，只量化解碼階段）。

結果清楚地支持了研究團隊的理論。以Qwen3-8B為例，全程BF16綜合平均分40.42，全程NVFP4降至33.59（下降6.83分），P16D4（只量化解碼）是36.74（下降3.68分），Mix-Quant（只量化預填充）是38.32（下降2.10分）。可以看到，兩種"只量化一半"的方案都比全部量化要好，但只量化解碼階段帶來的損失（3.68分），明顯大於只量化預填充階段帶來的損失（2.10分）。這直接證明了：解碼階段確實比預填充階段對量化誤差更敏感，把精度留給解碼階段是更明智的選擇。對於Gemma-4-26B-A4B-it，這個規律同樣成立——P16D4平均59.85，Mix-Quant平均60.18，兩者差距雖然不大，但Mix-Quant仍然更優。

贊助商廣告

當然，研究團隊也坦誠地指出，Mix-Quant並非完美無缺。預填充階段的量化誤差會影響KV緩存的精度，進而對解碼階段產生一定程度的間接影響。因此，Mix-Quant在某些基準上與BF16原版之間仍有一定差距，並非完全無損。但考慮到它實現了約3倍的預填充加速，這個差距在大多數實際應用場景中是完全可以接受的。

**說到底，這項研究告訴了我們什麼**

歸根結底，Mix-Quant提出了一個聽起來簡單、但落地頗有技巧的原則：同一個AI模型在不同工作階段，對"精確度"的需求是不一樣的，應該因地制宜地分配計算資源，而不是一刀切地對待整個推理過程。

這對于越來越普及的AI助手和智能體應用來說意義重大。以後當你使用AI幫你整理長達幾百頁的文檔、管理複雜的項目計劃、或者讓它自動在網上搜索資訊並生成報告時，支撐這些功能的伺服器可以更高效地運轉——處理海量輸入時踩油門，生成精準答案時穩把方向盤。這意味著同樣的硬體可以服務更多用戶，響應速度更快，成本也更低。

這項研究還揭示了一個更宏觀的方向：AI推理系統的優化不應該只盯著單一維度，而需要深入理解不同計算階段的本質特性，為每個階段量身定製最合適的策略。Mix-Quant只是這條路上的一個起點，未來完全可以與其他加速技術結合——比如稀疏注意力機制（讓AI只關注文本中最關鍵的部分，跳過不重要的內容）或者KV緩存壓縮方案，進一步降低長文本處理的成本。

一個有趣的延伸問題值得思考：Mix-Quant目前在預填充階段統一使用FP4精度，但實際上，即便在預填充內部，不同的層、不同的注意力頭對量化的敏感程度可能也不盡相同。是否可以進一步細化到"層級別"甚至"注意力頭級別"的量化策略，在速度和精度之間找到更精細的平衡點？這或許是這個研究方向下一步值得探索的問題。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.20315查閱完整論文，研究代碼也已開源，感興趣的技術人員可以在此基礎上進行進一步探索和擴展。

贊助商廣告

---

**Q&A**

Q1：Mix-Quant只量化預填充階段，不量化解碼階段，這樣是不是意味著解碼速度沒有改善？

A：是的，Mix-Quant的加速效果主要體現在預填充階段，解碼階段仍然保持BF16高精度運行，速度與原版相同。不過在AI智能體任務中，輸入文本往往遠多於輸出文本（有時比例高達36:1），因此預填充階段才是主要瓶頸，加速預填充對整體推理時間的改善已經非常顯著。如果需要同時加速解碼，可以結合其他專門針對解碼階段的優化方法。

Q2：NVFP4隻有Blackwell系列顯卡才支持嗎，其他GPU能用Mix-Quant的思路嗎？

A：Mix-Quant的核心思路——對預填充階段量化、保持解碼精度——是與具體硬體無關的通用框架，理論上可以結合任何支持低精度計算的量化格式來實現。NVFP4目前確實是英偉達Blackwell系列顯卡（如RTX 5090、B200）的專屬格式，能獲得最大的硬體加速收益。在其他GPU上，可以考慮使用INT4或FP8等格式來實現類似的相位感知量化，但具體加速效果會有所不同。

Q3：Mix-Quant適用於所有大語言模型嗎，還是只對特定模型有效？

A：從研究結果來看，Mix-Quant在Qwen3-8B、Qwen3.5-9B、Gemma-4-26B和Gemma-4-31B這四個不同架構和規模的模型上都展現出一致的效果，說明這個方法具有較好的通用性。一般來說，只要模型有明顯的預填充瓶頸（即輸入文本遠多於輸出文本的應用場景），Mix-Quant的相位感知量化策略就能發揮作用。模型規模越大，通常對量化的魯棒性也越強（Gemma-4-31B的結果就幾乎與原版持平），加速效果和精度保留都會更理想。