谷歌與馬克斯·普朗克研究所聯手：讓AI「看圖說話」既快又准，視覺壓縮技術迎來新突破

這項由谷歌與馬克斯·普朗克資訊研究所、慕尼黑工業大學聯合完成的研究發表於2026年5月，論文編號為arXiv:2605.30126v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當你拿著手機拍下一張照片，然後問AI"這張照片裡有什麼"，AI要在極短的時間內理解整張圖片，同時生成流暢的回答。這個過程聽起來輕而易舉，但背後涉及一個巨大的計算難題——AI每次"看圖"，都要把整張圖片切成數百甚至數千個小塊，然後逐一處理。處理的小塊越多，計算量就越大，耗電量也越驚人。對於一段影片來說，這個問題更加嚴峻，因為影片是由一幀幀圖片組成的，每一幀都要單獨處理。

研究團隊面對的核心問題就在這裡：能不能在不損失太多理解能力的前提下，大幅減少AI需要處理的圖像資訊量？這就像是問一個廚師：能不能只看食材的代表性樣本，而不是親自檢查每一顆米粒，就能做出一道好菜？

這項研究給出的答案，是一套名為PARCEL的全新視覺資訊壓縮方案。它不是簡單地"少看一點圖"，而是將看圖的任務分工合作——讓一部分資訊專門負責記住"圖的大體布局"，另一部分資訊則專門去挖掘"圖里藏著的細節"。這套分工機制，讓AI在大幅減少計算量的同時，依然能保持相當高的理解精度。

一、為什麼AI"看圖"這麼費算力？

要理解這套新方案的價值，得先搞清楚AI是怎麼處理圖片的。現代大型視覺語言模型（簡單理解為：能同時處理圖片和文字的AI系統）的工作方式，大致上可以用"切圖拼積木"來描述。

AI在拿到一張圖片後，不會把它當作一個整體來理解，而是把圖片切成許多小方塊，每個小方塊被轉換成一個"圖像令牌"（可以理解為一段描述該小方塊內容的數字編碼）。然後，AI將所有這些令牌和用戶輸入的文字一起放進一個叫做Transformer的處理器里，Transformer負責分析所有令牌之間的關係，最終生成回答。

贊助商廣告

麻煩就出在Transformer這裡。它在分析令牌關係時，計算量和令牌數量的平方成正比——也就是說，令牌數量翻倍，計算量會變成原來的四倍。一張普通圖片可能產生256個令牌，一段16幀的影片則可能產生4096個令牌。這種規模的計算，對於手機、平板等資源有限的設備來說，幾乎是不可能實時完成的。

正因如此，研究者們一直在探索"視覺令牌壓縮"的方法——在送進Transformer之前，先把令牌數量降下來。理想的目標是"彈性壓縮"：訓練一個模型，讓它能根據當前設備的算力，靈活地決定用多少令牌。這樣一來，同一個模型在高端伺服器上可以用256個令牌獲得最高精度，在老款手機上用16個令牌也能給出基本靠譜的答案，真正實現"一次訓練，隨處部署"。

二、現有方案的兩個死穴

在PARCEL出現之前，已有兩種主流的彈性壓縮方案，但各自都有明顯的短板。

第一種方案叫做"空間池化壓縮"，代表作是M3（Matryoshka多模態模型）。這種方法的思路就像是把一張高清照片連續縮小：原來256個方塊，先合併成64個，再合併成16個，每次合併就是把相鄰的小方塊取平均值合併成一個大方塊。這個過程在數學上叫做"平均池化"，優點是保留了圖片的空間位置資訊——合併後的每個令牌依然知道自己對應的是圖片的哪個區域。

然而，平均池化就像是把音樂的高音部分統統抹掉——它天然地過濾掉了圖像中的細節資訊。圖片裡精細的文字、複雜的圖表線條、小物體的邊緣，這些資訊在多次平均後都會變得模糊。在數字信號處理領域，這種現象有個專業名稱叫"頻譜混疊"，簡單說就是本來應該被過濾掉的高頻資訊（細節），以一種扭曲的形態混入了低頻資訊（整體布局），導致最終結果既丟失了細節，又引入了噪聲。這讓M3在處理圖表問題、文檔閱讀等需要精細識別的任務時表現欠佳。

第二種方案叫做"查詢令牌重採樣"，代表作是MQT（Matryoshka查詢變換器）。這種方法完全不同——它不依賴圖片的空間網格，而是引入一組"可學習的查詢令牌"。這些查詢令牌就像一群經過訓練的偵察員，它們通過"交叉注意力"機制去查閱原始的圖像資訊，將重要內容摘取出來濃縮成數量更少的令牌。通過一種叫做"嵌套隨機失活"的訓練技巧，這些查詢令牌被訓練成能在不同令牌數量下都正常工作。

贊助商廣告

MQT的靈活性很強，但它有一個根本性的弱點：查詢令牌是"非空間"的，它們不對應圖片的任何固定位置。這就像是讓偵察員把所有發現寫成一份綜合報告，卻不標註每條資訊來自地圖上的哪個坐標。當AI需要回答"圖片左邊的物體是什麼"或者需要精確定位圖片中某個區域時，MQT的查詢令牌就顯得束手無策了。實驗數據也印證了這一點：在測試AI空間定位能力的RefCOCO基準測試中，MQT的表現明顯不如保留空間資訊的方案。

可以看到，這兩種方案的缺點恰好互補：M3保留了空間位置但丟失了細節，MQT保留了靈活性但丟失了空間關係。這就是研究團隊面對的核心矛盾。

三、PARCEL的"分工合作"哲學

PARCEL的設計思想，可以用一個建築施工的比喻來理解。建築師在設計一棟樓時，會同時用到兩種圖紙：一張是整體平面圖，顯示每個房間的位置和大小（這對應空間布局）；另一張是局部詳圖，展示門窗、線路、裝飾等細節（這對應精細內容）。PARCEL的做法，就是明確讓不同的資訊載體各司其職——一部分令牌專門充當"平面圖"，另一部分令牌專門充當"局部詳圖"。

具體來說，PARCEL分兩個層次來處理圖像資訊。

第一個層次是"空間錨點令牌"。這部分令牌通過空間平均池化產生，就像把圖片粗粒度地縮小——在較高壓縮比時縮成4×4的網格（16個令牌），在較低壓縮比時縮成8×8的網格（64個令牌）。這些令牌的職責很單純：記住圖片的整體空間布局，哪裡有什麼顏色塊，大體上是什麼結構。研究團隊的頻譜分析證實，經過這種設計後，PARCEL的空間錨點令牌在低頻段（代表整體布局的資訊）的聚集程度遠高於M3，說明它確實更乾淨地完成了"低頻守衛"的職責。

第二個層次是"語義探索者查詢令牌"。這部分令牌才是PARCEL真正的創新所在。和MQT的查詢令牌不同，PARCEL的查詢令牌在去"查閱"原始圖像資訊之前，必須先經歷一個被稱為"池化感知查詢重採樣"（PCQR）的準備步驟。

贊助商廣告

這個準備步驟是這樣運作的：查詢令牌首先和空間錨點令牌放在一起，進行一次"自注意力"交互。自注意力的作用是讓這兩類令牌互相了解對方的內容——錨點令牌告訴查詢令牌"我已經負責了哪些空間區域的整體布局"，查詢令牌因此知道哪些內容是錨點令牌沒有覆蓋到的細節。經過這番"碰頭會"之後，查詢令牌帶著對整體布局的了解，再去原始高清圖像中提取互補資訊，重點關注那些被平均池化忽略掉的精細內容。

這個設計的精妙之處在於：查詢令牌不需要從零開始猜測"我應該關注什麼"，它們已經知道錨點令牌已經覆蓋了什麼，所以可以更有針對性地去找"空缺"。就像兩個分工合作的偵探——一個已經繪製了犯罪現場的整體地圖，另一個拿著地圖去現場尋找地圖上沒有記錄的微小線索。這種協作讓二者的工作不重疊、不衝突，最大化地利用有限的令牌數量。

四、如何在不同算力下靈活切換？

PARCEL還需要解決一個實際問題：在不同的設備或不同的需求下，可用的令牌數量是變化的。研究團隊設計了一套"預算感知分段路由"策略來應對這一挑戰。

當可用令牌非常少（16到63個之間）時，系統採用4×4的空間錨點網格（16個令牌），剩餘的令牌全部分配給查詢令牌。比如，總預算是16個令牌時，全部用作空間錨點，沒有額外的查詢令牌；總預算是32個令牌時，16個作為空間錨點，另外16個作為查詢令牌。

當可用令牌較多（64到256個之間）時，系統切換到8×8的空間錨點網格（64個令牌），剩餘的令牌分配給查詢令牌。比如，總預算是256個令牌時，64個作為空間錨點，另外192個作為查詢令牌，這些查詢令牌可以深入挖掘圖像的大量精細細節。

查詢令牌的數量彈性，通過"嵌套隨機失活"技術來實現。在訓練過程中，系統會隨機截斷查詢令牌序列的長度，強迫排在前面的查詢令牌學會在令牌數量有限時承擔最重要的資訊摘取任務。這樣訓練出來的查詢令牌形成一個有優先級的序列——編號越小的查詢令牌，攜帶的資訊越重要，無論最終使用多少個令牌，只需從頭截取所需數量即可，不需要重新訓練。

贊助商廣告

五、實驗數據：效果到底如何？

研究團隊在27個視覺語言理解基準測試上對PARCEL進行了全面評估，涵蓋影片理解、圖像空間定位、精細文字/圖表識別、以及通用問答等多個類別。所有比較的基礎模型都是PaliGemma-2 3B，這是一個由谷歌開發的視覺語言模型，包含約20億參數的Gemma-2語言解碼器和SigLIP視覺編碼器。未壓縮的原始模型被稱為"Vanilla PG2"，作為性能上限參考。

評估指標用"性能保留率"來衡量——也就是壓縮後的模型相對於未壓縮模型，能保留多少百分比的性能。以256個令牌為例，PARCEL在圖像任務上保留了95.1%的原始性能，在影片任務上保留了98.0%，均高於M3（圖像91.1%，影片92.9%）和MQT（圖像93.3%，影片94.4%）。即便壓縮到僅16個令牌的極端情況下，PARCEL在圖像任務保留86.8%、影片任務保留95.0%，也都優於對比方案。

在空間定位能力的專項測試中，PARCEL的優勢最為明顯。RefCOCO測試系列專門檢驗AI能否根據語言描述準確定位圖片中的特定區域，這正是MQT最薄弱的環節。在256個令牌的預算下，PARCEL在RefCOCO全套測試的平均保留率達到90.6%，比MQT高出4.2個百分點，比M3高出8.9個百分點。即便是在只有16個令牌的極端壓縮下，PARCEL（80.5%）也明顯優於MQT（79.0%）和M3（74.2%）。

在圖表和文檔識別測試中，PARCEL同樣表現出色。以ChartQA（圖表問答）為例，在64個令牌的預算下，PARCEL比M3高出約4.7分，比MQT高出約2.9分。這說明PARCEL的語義探索者查詢令牌確實成功地補充了空間池化所丟失的精細資訊。

在影片理解測試中，以ActivityNet-CAP（影片內容描述）為例，在256個令牌下，PARCEL得分41.5分，而M3僅36.1分、MQT為37.2分，差距相當顯著。

六、頻譜分析揭示的內在機制

研究團隊不僅做了性能對比，還深入分析了為什麼PARCEL能有這樣的效果。他們用一種叫做"徑向功率譜分析"的數學工具，檢測了不同壓縮方案產生的令牌在頻率維度上的特性。

贊助商廣告

這個分析的通俗理解是：圖像中的資訊可以分為"低頻成分"（對應圖像的大體形狀、顏色塊、整體結構）和"高頻成分"（對應圖像中的細節、邊緣、文字筆畫等）。理想的分工方案應該讓空間錨點令牌專注於低頻成分，讓查詢令牌專注於高頻成分。

分析結果顯示，PARCEL的空間池化令牌的低頻能量集中程度明顯高於M3的空間池化令牌，說明PARCEL的設計讓池化令牌更純粹地擔當"低頻錨點"的角色。與此同時，PARCEL的查詢令牌在高頻段的能量也明顯高於MQT的查詢令牌，說明查詢令牌確實在池化令牌的引導下成功專注於挖掘高頻細節。這種頻譜上的分工，從理論上驗證了PARCEL設計哲學的有效性。

七、消融實驗：每個設計選擇都有必要嗎？

研究團隊還通過"消融實驗"來驗證各個設計選擇的必要性——也就是逐個去掉某個設計，看性能會下降多少。

關於預算路由策略，實驗證明動態調整空間錨點網格大小是必要的。如果固定使用4×4錨點（16個令牌）不管總預算有多少，在256個令牌的預算下性能只有90.2%，遠低於完整PARCEL的95.6%。這說明在有更多預算可用時，擴大空間錨點範圍（升級到8×8網格）確實有助於提升性能。

關於池化感知查詢重採樣機制，實驗對比了三種變體：讓查詢令牌直接與視覺編碼器的原始輸出交叉注意（無池化感知），讓查詢令牌先與池化令牌交叉注意再與原始視覺特徵交叉注意（雙重交叉注意），以及PARCEL的實際方案（池化令牌與查詢令牌先做自注意力，再讓查詢令牌與原始視覺特徵交叉注意）。實驗結果顯示，PARCEL的完整方案在256個令牌下達到95.6%，略優於雙重交叉注意（95.4%）和無池化感知版本（95.2%）。雖然差距不大，但方向一致——池化感知確實對查詢令牌的資訊摘取有正向引導作用。

關於計算量公平性，研究團隊還做了一個重要的對照實驗：給M3和MQT各添加與PARCEL相當的額外自注意力模組，使其參數量與PARCEL大致相當，然後再比較性能。結果顯示，擴大參數量並不能根本上彌補M3和MQT的結構性缺陷——增強版MQT在256個令牌下只有93.3%，增強版M3隻有92.2%，都仍然低於PARCEL的95.6%。這說明PARCEL的性能提升來自設計理念本身，而不是單純來自參數量的增加。

贊助商廣告

八、高解析度和計算效率

研究團隊還在448×448高解析度設置下進行了額外測試。在高解析度下，圖像被切成32×32=1024個原始令牌，PARCEL通過引入第三個空間錨點尺寸（16×16網格，256個令牌）來適配這一設置。高解析度實驗結果顯示，PARCEL在1024、256、64個令牌預算下的平均性能保留率分別為98.2%、98.2%、95.4%，均優於M3（96.0%、95.4%、93.4%）和MQT（95.4%、95.8%、93.5%）。

在計算效率方面，PARCEL引入的PCQR模組非常輕量，相對於視覺編碼器和語言解碼器這兩個龐大組件，連接器部分的額外計算量微乎其微。以16個令牌為例，PARCEL的總體計算量約為1.0TFLOP（萬億次浮點運算），KV緩存（語言模型在推理時儲存中間結果所需的內存）約為15MB；以256個令牌為例，計算量約為2.0TFLOP，KV緩存約為39MB。與未壓縮模型相比，256個令牌預算依然能帶來顯著的計算節省，尤其是在16幀影片輸入時，KV緩存可以從遠超1000MB的量級壓縮到423MB。

說到底，PARCEL這項研究幹的事情，用一句話概括就是：讓AI在用更少算力看圖時，既記得住"哪裡有什麼"，又不會漏掉"藏在細節里的關鍵資訊"。

這對普通用戶意味著什麼？在實際應用層面，這類技術讓視覺語言AI變得更加普惠。以前需要頂級伺服器才能運行的圖文理解能力，有望逐漸來到中低端設備上，甚至在沒有穩定網路的離線場景下也能流暢運行。醫療影像分析、無障礙輔助、實時翻譯等對普通人生活影響深遠的應用，都可能因此受益。

當然，這項研究也有其局限性。PARCEL目前依賴工程師預先設定令牌預算，而不能根據圖片內容的複雜程度自動判斷"這張圖需要多少令牌"。對於一張白色背景上只有一個蘋果的簡單圖片，256個令牌明顯是浪費；而對於一份密密麻麻的財務報表，16個令牌又遠遠不夠。開發一套能自適應調整預算的系統，是研究團隊提出的未來改進方向之一。

贊助商廣告

此外，這項研究基於PaliGemma-2這一特定模型架構進行，在其他架構上是否同樣有效，還需要更多驗證。感興趣的讀者可以通過論文編號arXiv:2605.30126查閱完整的技術細節和實驗數據。

Q&A

Q1：視覺語言模型中的"視覺令牌壓縮"是什麼意思？

A：視覺令牌壓縮指的是在AI處理圖片時，把圖片切成的大量小方塊（令牌）數量壓縮減少，從而降低計算量。因為AI的計算量和令牌數量的平方成正比，令牌數量減半意味著計算量降低到原來的四分之一。PARCEL方案的特點是讓不同令牌各司其職，一部分記住圖的整體布局，另一部分負責挖掘精細細節，在壓縮的同時儘量保留兩類資訊。

Q2：PARCEL和M3、MQT相比優勢體現在哪些具體任務上？

A：PARCEL在兩類任務上優勢最突出。一是圖像空間定位任務，比如RefCOCO測試（根據語言描述定位圖片中特定物體），這類任務需要保留精確的空間位置資訊，PARCEL因為有空間錨點令牌而優於查詢令牌方案MQT；二是精細識別任務，比如ChartQA圖表問答和DocVQA文檔問答，這類任務需要識別細節，PARCEL因為有語義探索者查詢令牌而優於空間池化方案M3。

Q3：PARCEL技術目前處於什麼階段，普通用戶能用到嗎？

A：PARCEL目前是學術研究階段的成果，在谷歌開發的PaliGemma-2模型上進行了驗證。普通用戶目前無法直接使用這一技術，但這類視覺令牌壓縮研究通常是工業界大模型產品優化的重要基礎。隨著相關技術逐步成熟，未來的AI助手、手機端AI應用等有望受益於這類高效壓縮方案，在低算力設備上提供更流暢的圖文理解體驗。