宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

新加坡國立大學研究:AI助手處理長文本時,能不能做到又快又准?

2026年05月28日 首頁 » 熱門科技

這項由新加坡國立大學研究團隊完成的研究,以預印本形式於2026年5月發布,論文編號為arXiv:2605.20315,研究提出了一種名為Mix-Quant的推理加速框架,專門針對需要頻繁與環境交互、處理大量文本的AI智能體應用場景。

**速度與精度的兩難困境**

當你讓一個AI助手幫你完成一項複雜任務——比如搜索網頁、調用工具、翻閱歷史記錄、寫代碼再自動調試——它其實需要在幕後反覆"讀文章、想問題、寫答案"。每做一步,AI都要把之前所有的對話記錄、工具調用結果、中間推理過程全部重新讀一遍,然後才能決定下一步怎麼做。

這意味著,AI每次思考前要讀的內容,往往比它實際輸出的內容長幾十倍甚至上百倍。研究團隊在實驗中發現,在軟體工程任務場景下,AI需要讀入的輸入文字數量約為22.8萬個詞,而它最終生成的輸出只有約3.9萬個詞,輸入是輸出的將近6倍。在另一個需要長期記憶管理的任務中,這個比例更是高達36倍——AI要讀11萬個詞,卻只輸出3000個詞。這就像一個廚師每次做一道菜之前,都要把整本菜譜從頭到尾背一遍,才能決定下一步加什麼調料。

處理這些海量輸入文字的過程,在AI技術中被稱為"預填充"(prefilling)階段,而之後一個字一個字生成回答的過程叫做"解碼"(decoding)階段。預填充階段就像是工廠里大規模並行運轉的流水線——可以同時處理所有文字,計算量巨大;解碼階段則像是手工一件一件製作的工匠,每次只產出一個詞,速度慢但對每一步的精確性要求極高。

為了讓AI運行得更快,工程師們常用的一個方法叫"量化"(quantization)。這就像把高清照片壓縮成低解析度圖片來節省儲存空間——把AI大腦里本來用高精度浮點數表示的數字,換成更粗粒度的低精度數字,這樣計算量就小了,速度也更快了。目前最激進的量化方案之一叫做FP4,就是只用4個二進制位來表示一個數字(而正常情況下可能要用16個甚至32個位)。

然而,問題就出在這裡:把整個AI推理過程都換成FP4低精度運行,速度確實快了,但AI的回答質量卻明顯下降。就像把菜譜印成模糊不清的低清版本,廚師在看配料表時還能勉強認出"鹽"和"糖",但到了需要精確判斷"加幾克"的時候,就容易出錯,而且一步錯步步錯,最終做出來的菜可能跟預期相差甚遠。

這就是研究團隊面對的核心困境:AI智能體需要快速處理大量輸入,但加速手段又會讓它犯錯。這項研究的核心貢獻,就是找到了一條既能加速又不犧牲精度的路——不是對整個過程一刀切,而是分階段區別對待。

**一、讀文章時可以"馬虎",但寫答案時必須"認真"**

研究團隊注意到一個關鍵的非對稱性:AI讀文章(預填充階段)和AI寫答案(解碼階段)這兩個階段,對精度的敏感程度完全不同。

在預填充階段,AI只是在把輸入的所有文字統一"消化"一遍,然後把理解結果存進一個叫做"KV緩存"(Key-Value Cache)的臨時記憶庫里。這個階段有幾個重要特性。首先,輸入的文字是固定的,不會因為AI內部計算出了一點點誤差就改變——就算AI在讀文章時理解得不完全精準,原文還是那個原文,不會跑掉。其次,長文本里有大量冗餘資訊。研究團隊做了一個實驗:對於一段12.8萬詞的長文本,他們統計了AI在生成答案時,注意力(attention)主要集中在哪些位置。結果發現,排名前4096個最重要的詞語(只占全部文字的3.125%),平均承載了95.8%的注意力權重。換句話說,絕大多數輸入文字其實對最終答案影響極小,AI主要靠一小部分關鍵內容來推斷答案。這種高度集中的注意力分布,意味著預填充階段即使出現一些量化誤差,那些誤差大多發生在不重要的文字上,對最終理解的影響相當有限。

解碼階段則完全不同。AI每生成一個詞,都是基於之前所有已經生成的詞來決定的。這是一個環環相扣的鏈條——任何一個環節出了偏差,後續所有環節都會受到影響。研究中用公式表達了這個過程:每個時刻t生成的詞yt,依賴於原始輸入x和之前所有已生成的詞y?到y_{t-1}。如果在某一步,低精度量化導致AI把"調用搜索工具"誤寫成了一個無效指令,那麼接下來AI就會基於這個錯誤的指令繼續推理,錯誤就像滾雪球一樣越來越大。學術界把這個現象叫做"雪球效應"——一個小小的初始偏差,會在長序列生成中被不斷放大。在AI需要完成多步驟複雜任務的場景下,比如寫一段代碼、一步錯誤可能導致整個程序邏輯崩塌;比如調用外部工具,參數格式稍有偏差就會讓工具調用失敗;比如多輪對話,一個錯誤的中間狀態會影響所有後續的推理和決策。

正是基於這種對兩個階段截然不同特性的認識,研究團隊提出了Mix-Quant的核心思路:預填充階段用激進的低精度量化(FP4)來大幅加速,解碼階段則保持高精度(BF16)來保證質量。BF16是一種比FP4精度高得多的數字表示方式,是目前深度學習中最常用的"標準精度"之一。這就像一個翻譯工作者,在快速瀏覽一份幾十頁的原始資料時可以用"粗讀"的方式提煉要點,但在最終落筆翻譯關鍵段落時,必須字斟句酌,一字不差。

**二、Mix-Quant究竟是怎麼工作的**

Mix-Quant使用的量化格式叫做NVFP4,這是英偉達新加坡國立大學研究AI助手處理長文本時能不能做到又快又准(NVIDIA)專門為其最新一代Blackwell系列顯卡(包括RTX 5090和B200)設計的一種低精度數字格式。普通的低精度格式只是粗暴地把數字"四捨五入"到最近的低精度表示,而NVFP4設計得更為精巧,採用了兩級縮放機制。

以一個形象的比喻來理解這個機制:假設你要把一幅畫從高清版壓縮成低解析度版。最粗暴的做法是直接縮小全圖解析度,整體模糊。而NVFP4的做法更像是先把畫分成很多16個像素一組的小區塊,每個區塊單獨調整對比度(這是"局部縮放",用FP8 E4M3格式表示),再在整張圖上做一次全局亮度校準(這是"全局縮放")。兩級調整疊加,使得壓縮後的圖像雖然解析度低了,但整體色調和局部細節都得到了更好的保護。

在數學上,NVFP4對每個數字x?的量化過程是:先用全局縮放因子α?和局部縮放因子σ_b(i)共同對x?進行歸一化,再把歸一化後的值投影到最近的FP4可表示值上。反量化時乘回兩個縮放因子即可恢復近似值。局部縮放因子σ_b基於該區塊內絕對值最大的元素來確定,確保區塊內的最大值能被準確表示。研究團隊發現,由於NVFP4本身的設計已經足夠精細,直接使用最簡單的"就近取整"(RTN)量化策略就能達到很好的效果,不需要額外複雜的量化校準算法,這也大大降低了部署的門檻和運行時的額外開銷。

在系統架構上,Mix-Quant採用了"預填充-解碼分離部署"的方式。具體來說,處理輸入文字的預填充工作由專門的"預填充工作節點"完成,這些節點上的模型使用FP4量化版本,跑得飛快;預填充完成後,生成的KV緩存通過一個叫做NIXL的高速傳輸機制,傳給專門負責生成答案的"解碼工作節點",解碼節點上的模型保持BF16高精度,穩穩噹噹地一個詞一個詞地生成回答。兩套系統分工協作,互不干擾。這種架構的好處是,不需要在單個模型內部來回切換精度,避免了複雜的精度轉換開銷和潛在的數值對齊問題。

**三、實驗驗證:到底快了多少,准了多少**

研究團隊在NVIDIA RTX 5090和B200顯卡上,使用vLLM這個業界主流的大模型推理框架,對Mix-Quant進行了全面測試。他們選取了當前業界表現最強的幾款開源智能體模型:Qwen3-8B(通義千問團隊的80億參數模型)、Qwen3.5-9B(同團隊的下一代90億參數模型)、Gemma-4-26B-A4B-it(谷歌DeepMind的260億參數混合專家模型)和Gemma-4-31B-it(谷歌的310億參數完整版本)。每個模型都在三種狀態下測試:原始BF16高精度版本、全程FP4低精度版本(即"均勻NVFP4"方案),以及Mix-Quant方案。

在速度方面,結果相當亮眼。以Qwen3-8B模型為例,在單個請求、不同輸入長度的場景下,Mix-Quant的預填充階段相比BF16原版快了2.21倍(2000詞輸入)到3.51倍(32000詞輸入)不等。輸入越長,加速效果越明顯,這正好契合了AI智能體任務中輸入文字普遍很長的現實場景。在多個請求同時處理(批量推理)的場景下,隨著批量大小從1增加到32,加速比穩定維持在2.15倍到3.74倍之間。整體來看,Mix-Quant在預填充階段平均實現了約3倍的加速。

在準確性方面,研究團隊使用了五個各具特色的測試基準。BFCL v4測試AI的工具調用和函數調用能力,LongMemEval測試AI在長期多輪對話中管理和檢索歷史記憶的能力,τ?-bench測試AI作為通用助手在複雜狀態對話中的表現,LongBench-V2和AA-LCR則測試AI對長文檔的理解、綜合和推理能力。此外還有數學推理基準MATH500、AIME24和AIME25。

以Qwen3-8B為例,原始BF16模型在五個智能體基準上的綜合平均分是42.85分。換成全程FP4量化後,平均分暴跌到38.64分,損失了約10%的性能。而Mix-Quant方案下,平均分恢復到41.45分,幾乎追回了全部損失。在LongMemEval這個測試長期記憶的項目上,FP4量化使分數從57.00驟降至49.82,而Mix-Quant把它拉回到54.85,恢復效果非常明顯。對於更大的Gemma-4-31B-it模型,表現更是令人印象深刻:BF16基準分77.63,全程FP4是76.21,而Mix-Quant達到77.14,幾乎與原始精度持平,這意味著對於這個更大的模型,僅對預填充階段進行量化造成的損失微乎其微。

在數學推理測試中,Mix-Quant同樣展現出一致的優勢。以Qwen3.5-9B為例,BF16版本在AIME24和AIME25上分別取得68.89和60.00的成績,全程FP4量化後分別跌至54.44和40.00,損失相當慘重。Mix-Quant則恢復到70.33和56.67,基本接近原始水平。對於Gemma-4-26B-A4B-it,Mix-Quant在所有五個測試的綜合平均分71.93與BF16的71.94幾乎完全一致,而全程FP4隻有66.31。

**四、分階段消融實驗:進一步驗證哪個階段更敏感**

為了更精確地驗證"解碼階段比預填充階段對量化更敏感"這一核心假設,研究團隊做了一個特別設計的對比實驗。他們把各種量化策略組合做了橫向比較:全程BF16(什麼都不量化)、全程NVFP4(全部量化)、Mix-Quant(只量化預填充,解碼保持BF16),以及一個反向對照——P16D4(預填充保持BF16,只量化解碼階段)。

結果清楚地支持了研究團隊的理論。以Qwen3-8B為例,全程BF16綜合平均分40.42,全程NVFP4降至33.59(下降6.83分),P16D4(只量化解碼)是36.74(下降3.68分),Mix-Quant(只量化預填充)是38.32(下降2.10分)。可以看到,兩種"只量化一半"的方案都比全部量化要好,但只量化解碼階段帶來的損失(3.68分),明顯大於只量化預填充階段帶來的損失(2.10分)。這直接證明了:解碼階段確實比預填充階段對量化誤差更敏感,把精度留給解碼階段是更明智的選擇。對於Gemma-4-26B-A4B-it,這個規律同樣成立——P16D4平均59.85,Mix-Quant平均60.18,兩者差距雖然不大,但Mix-Quant仍然更優。

當然,研究團隊也坦誠地指出,Mix-Quant並非完美無缺。預填充階段的量化誤差會影響KV緩存的精度,進而對解碼階段產生一定程度的間接影響。因此,Mix-Quant在某些基準上與BF16原版之間仍有一定差距,並非完全無損。但考慮到它實現了約3倍的預填充加速,這個差距在大多數實際應用場景中是完全可以接受的。

**說到底,這項研究告訴了我們什麼**

歸根結底,Mix-Quant提出了一個聽起來簡單、但落地頗有技巧的原則:同一個AI模型在不同工作階段,對"精確度"的需求是不一樣的,應該因地制宜地分配計算資源,而不是一刀切地對待整個推理過程。

這對于越來越普及的AI助手和智能體應用來說意義重大。以後當你使用AI幫你整理長達幾百頁的文檔、管理複雜的項目計劃、或者讓它自動在網上搜索資訊並生成報告時,支撐這些功能的伺服器可以更高效地運轉——處理海量輸入時踩油門,生成精準答案時穩把方向盤。這意味著同樣的硬體可以服務更多用戶,響應速度更快,成本也更低。

這項研究還揭示了一個更宏觀的方向:AI推理系統的優化不應該只盯著單一維度,而需要深入理解不同計算階段的本質特性,為每個階段量身定製最合適的策略。Mix-Quant只是這條路上的一個起點,未來完全可以與其他加速技術結合——比如稀疏注意力機制(讓AI只關注文本中最關鍵的部分,跳過不重要的內容)或者KV緩存壓縮方案,進一步降低長文本處理的成本。

一個有趣的延伸問題值得思考:Mix-Quant目前在預填充階段統一使用FP4精度,但實際上,即便在預填充內部,不同的層、不同的注意力頭對量化的敏感程度可能也不盡相同。是否可以進一步細化到"層級別"甚至"注意力頭級別"的量化策略,在速度和精度之間找到更精細的平衡點?這或許是這個研究方向下一步值得探索的問題。

有興趣深入了解技術細節的讀者,可以通過arXiv編號2605.20315查閱完整論文,研究代碼也已開源,感興趣的技術人員可以在此基礎上進行進一步探索和擴展。

---

**Q&A**

Q1:Mix-Quant只量化預填充階段,不量化解碼階段,這樣是不是意味著解碼速度沒有改善?

A:是的,Mix-Quant的加速效果主要體現在預填充階段,解碼階段仍然保持BF16高精度運行,速度與原版相同。不過在AI智能體任務中,輸入文本往往遠多於輸出文本(有時比例高達36:1),因此預填充階段才是主要瓶頸,加速預填充對整體推理時間的改善已經非常顯著。如果需要同時加速解碼,可以結合其他專門針對解碼階段的優化方法。

Q2:NVFP4隻有Blackwell系列顯卡才支持嗎,其他GPU能用Mix-Quant的思路嗎?

A:Mix-Quant的核心思路——對預填充階段量化、保持解碼精度——是與具體硬體無關的通用框架,理論上可以結合任何支持低精度計算的量化格式來實現。NVFP4目前確實是英偉達Blackwell系列顯卡(如RTX 5090、B200)的專屬格式,能獲得最大的硬體加速收益。在其他GPU上,可以考慮使用INT4或FP8等格式來實現類似的相位感知量化,但具體加速效果會有所不同。

Q3:Mix-Quant適用於所有大語言模型嗎,還是只對特定模型有效?

A:從研究結果來看,Mix-Quant在Qwen3-8B、Qwen3.5-9B、Gemma-4-26B和Gemma-4-31B這四個不同架構和規模的模型上都展現出一致的效果,說明這個方法具有較好的通用性。一般來說,只要模型有明顯的預填充瓶頸(即輸入文本遠多於輸出文本的應用場景),Mix-Quant的相位感知量化策略就能發揮作用。模型規模越大,通常對量化的魯棒性也越強(Gemma-4-31B的結果就幾乎與原版持平),加速效果和精度保留都會更理想。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新