這項由北京大學力學與工程科學學院和清華大學自動化系聯合開展的研究,以預印本形式於2026年6月發布在arXiv平台,編號為arXiv:2606.09131,目前提交至Elsevier旗下期刊審核。感興趣的讀者可通過該編號查詢完整論文。
一、一個被忽視已久的"資源浪費"問題
當你去餐廳點了一道菜,廚師在菜做好之後,卻仍然不停地往鍋里翻炒、加熱、反覆調味——哪怕味道早已定型,這樣做除了浪費燃氣,什麼都改變不了。這個場景,恰恰就是當前主流的多模態大語言模型(也就是那些能同時理解圖片和文字的AI助手)在"處理圖片資訊"時每天都在做的事情。
過去幾年,以LLaVA、Qwen-VL、MiniGPT-4為代表的多模態AI系統迅速崛起。這類系統的工作方式大致是這樣的:把一張圖片和一段文字同時"餵"給一個巨大的神經網路(可以把它想像成一條極深的流水線,有32甚至40個處理站),圖片資訊和文字資訊從第一個處理站出發,一路並肩走到最後一個處理站,每一站都接受相同強度的"加工"。這種設計的初衷是簡單實用——畢竟這條流水線原本是為純文字設計的,把圖片資訊直接混進去一起處理,省去了專門建造圖片通道的麻煩。
然而,北京大學與清華大學的研究團隊發現,這種"一視同仁"的設計背後隱藏著一個根本性的誤判:圖片資訊和文字資訊根本不是同一類東西,它們對"深度加工"的需求截然不同。文字是離散的符號,每個詞的意思需要結合上下文、語法結構、邏輯關係反覆推敲,越深的處理站越能挖掘出更豐富的語義。但圖片是連續的視覺信號,包含大量重複、冗餘的像素區塊,它的"核心意思"其實很早就提煉完畢了,後續的重複加工幾乎沒有新增價值——就像那鍋早已做好的菜,繼續翻炒只是浪費火力。
這就是該研究要解決的核心問題:既然圖片資訊在流水線中途就已經"飽和",我們為什麼還要強迫它走完全程?
二、三把"聽診器",聽出圖片資訊的"過早飽和"
為了驗證這個直覺,研究團隊設計了一次系統性的"體檢"——他們從LLaVA-665k數據集中隨機抽取了500個包含圖片和文字的真實樣本,讓原版LLaVA-1.5-7B模型逐層處理這些樣本,同時在每一個處理站安裝了三種不同的"傳感器",從三個完全不同的角度記錄圖片資訊和文字資訊在每一層的狀態變化。
第一種傳感器測量的是"相鄰兩層之間的變化幅度",用一個叫做"餘弦相似度"的指標來衡量——可以把它理解為前後兩幀畫面的差異程度,數值越接近1.0說明變化越小、越接近靜止。結果發現,圖片資訊從第0層開始,相鄰層之間的相似度就穩定在0.92以上,也就是說每經過一個處理站,圖片資訊幾乎紋絲未動。相比之下,文字資訊在深層處理站中仍然保持著明顯的變化,說明文字在越來越深的層次里持續被"打磨"和"提煉"。
第二種傳感器追蹤的是"文字在多大程度上關注圖片",用"文字到圖片的注意力權重"來衡量。這個指標可以理解為:當AI在生成文字回答時,它有多少心思放在圖片上?數據相當觸目驚心——在第0層,文字對圖片的關注度高達0.68,也就是說大約68%的注意力都投向了圖片;但僅僅經過4個處理站,這個數字就崩塌到0.07,降幅達到十倍;到了第18層之後,這個數字穩定在0.04附近,幾乎再也不動了。這意味著,流水線過了前幾站之後,文字實際上幾乎不再"看"圖片了——圖片資訊在深層處理中已經變成了被冷落的乘客。
第三種傳感器使用了一種叫做"Logit Lens"(邏輯透鏡)的分析工具——可以把它理解為一種"預言機",它能在每一層處理站停下來問:如果現在就讓AI輸出答案,它的預測結果和最終答案差多遠?當這個差距收窄到某個閾值時,就說明該類型的資訊已經"成熟"可以輸出了。分析結果顯示,圖片資訊在第22層就達到了這個成熟閾值,而文字資訊則要到第23層才達到——圖片比文字早一層"成熟",但兩者都集中在深層區域,而整個模型共有32層。
三把傳感器指向了同一個結論:圖片資訊在第18層前後便已進入"飽和區",後續的13層處理對圖片而言幾乎是在做無用功;而文字資訊直到最後幾層仍在持續演化,需要完整的深度加工。這種"圖片早熟、文字晚熟"的現象,研究團隊將其命名為"視覺飽和"(Visual Saturation)。
三、一個聰明的"雙軌分流"方案
發現了問題,自然要想辦法解決。研究團隊提出的方案叫做DPVR(Dual-Path Vision Token Routing,雙路徑視覺詞元路由),核心思想用一句話來說就是:讓圖片資訊在"飽和點"提前下車,走一條短平快的專用通道;文字資訊繼續乘坐原來的深層流水線走完全程;最後在終點站重新會合,共同參與最後一次融合處理。
具體的實施方案叫做DPVR-LF(Late-Layer Fusion,晚期融合)。以7B(70億參數)規模的模型為例,整個處理過程分為四個階段,就像一條精心設計的生產流程。
第一階段是共同旅程:圖片資訊和文字資訊從第0層出發,一起經過前18個處理站(第0到第17層),接受完全相同的處理。這個階段是共用的,兩類資訊肩並肩走過早期的基礎特徵提取階段。
第二階段是圖片"下車":在第18層這個關鍵節點,圖片資訊從主流水線上"下車",轉入一個專門為它準備的單層"側支通道"——一個獨立的、可訓練的Transformer模組(可以把它想像成一個精煉工坊,專門對已經較為成熟的圖片表示做最後的精加工)。這個側支通道只有一層,參數量約為2億(202M),只占整個7B模型參數總量的約3%。
第三階段是文字獨自深潛:圖片資訊在側支通道處理的同時,文字資訊繼續沿著主流水線前行,獨自經過第18層到第30層共13個深層處理站。在這13層里,文字資訊的處理完全不受圖片的干擾,可以全力進行語義推理、邏輯組合和語言生成的深層運算。圖片位置在這13層中被完全跳過,計算資源全部用在文字上。
第四階段是最後的融合:在第31層(最後一層),側支通道處理好的圖片表示被重新"拼回"到圖片對應的位置,和深層加工完畢的文字資訊一起,經歷最後一次完整的注意力計算——在這一層里,文字可以重新"看"圖片,實現最終的圖文資訊融合,然後輸出答案。
這個設計的精妙之處在於,它用極小的結構改動(只增加一個單層側支模組,凍結其餘參數)實現了對計算資源的大幅度重新分配,同時保留了一條從圖片資訊到訓練損失函數的梯度反傳路徑,使得模型仍然可以正常訓練。
四、"最後一層融合就夠了"——但為什麼呢?
讀到這裡,你可能會產生一個疑問:只在最後一層讓文字"看"一眼圖片,這真的夠嗎?畢竟前面13層文字都在"單飛",沒有圖片的陪伴,會不會丟失很多視覺資訊?
研究團隊對這個問題給出了兩個層面的回答,一個是理論推導,一個是實驗驗證。
從理論上看,之所以必須保留最後一層的圖文融合,是因為LLaVA系列模型在訓練時有一個特定的規則:損失函數隻計算"助手回答"部分的預測誤差,圖片位置、系統提示、用戶問題的位置標籤全部被設置為"-100"(意思是"忽略這裡")。這意味著,如果圖片資訊在最後一層之前從未和文字發生過任何交互,那麼在反向傳播時,梯度根本無法流回圖片側支通道,側支模組就等於在空轉、根本學不到任何東西。一旦在最後一層加入圖文融合,文字的查詢向量就會通過注意力機制"觸碰"圖片的鍵值投影,梯度路徑就此打通,側支模組才能真正接收訓練信號。
從實驗上看,研究團隊直接測量了訓練好的DPVR-LF模型在最後這個融合層上的"圖文注意力集中度"。結果顯示,在這個唯一的融合層上,文字對圖片的平均注意力權重達到0.388,而原版LLaVA在同一層的對應數值只有0.219——前者是後者的1.77倍。換句話說,融合層在知道自己是"唯一機會"的情況下,學會了把更多注意力集中在圖片上,充分彌補了前面13層"無圖"處理留下的資訊缺口。這種自適應的注意力重分配,正是該設計得以奏效的關鍵機制。
五、與"競爭對手"的正面比較
為了更清晰地展示DPVR-LF的優勢,研究團隊還設計了兩個對比方案作為內部基線,這兩個方案可以理解為"中間地帶"的探索。
第一個對比方案叫DPVR-PC(持久上下文):圖片資訊同樣在第18層分流進入側支通道處理,但在後續的每一個深層處理站,圖片資訊都被從側支通道拉回來,強行參與每一層的完整注意力計算。好處是梯度路徑最豐富(每層都有14條反傳路徑),訓練信號最強;壞處是計算量和原版完全一樣,沒有任何效率提升,甚至因為額外的重置操作還略微變慢了(實測增加約6%延遲)。
第二個對比方案叫DPVR-KV(鍵值替換):圖片資訊在深層處理站里只貢獻"鍵"和"值"(K/V投影),跳過查詢向量(Q)和前饋網路(FFN)的計算。這是一個折中方案,理論上可以節省約17%的圖片相關計算量,但並不徹底。
三者相比,DPVR-LF的策略最為激進也最為徹底:圖片在13個深層處理站里完全缺席,只在最後一層露一次面。這帶來了最大的計算節省——理論上節省深層圖片計算量約26.8%(對應實測A800 GPU上節省28.0%的實際延遲),同時付出的代價是最稀疏的梯度信號(只有原來的約5%)。為了彌補梯度稀疏帶來的訓練難度,研究團隊將DPVR-LF的學習率設為基線的2倍(1e-4對比5e-5),這個調整完全彌補了梯度稀疏的劣勢。
六、在八個真實測試中的表現
研究團隊在LLaVA-1.5-7B和13B兩個規模的模型上,跨越八個標準多模態評測基準全面測試了DPVR-LF的效果。這八個測試覆蓋了視覺問答、物體幻覺檢測、知識推理、多語言理解、科學題解答等多個維度,可以說是對AI圖文理解能力的全方位考核。
在7B模型上,DPVR-LF在POPE(物體幻覺檢測)上得分0.855,MME-Cognition(認知理解)326分,ScienceQA(科學問答)0.647,這三項均達到或超過全量微調和LoRA等基線方法的最佳水平。在MMBench-EN(英文多模態理解)和SEED-Bench上,DPVR-LF與最佳基線的差距不超過0.5個百分點。相對而言,BLINK(多圖關係推理,差2.0個百分點)和MMBench-CN(跨語言圖文對齊,差1.9個百分點)是兩個表現稍弱的測試——這兩類任務恰好對圖文深度交互的需求最高,單一融合層的限制在此處有所顯現,研究團隊也在論文中坦誠承認了這一局限。
在13B模型上,結果同樣穩健。研究團隊在四個不同的"分流點"(第20、24、28、34層)分別測試了DPVR-PC基線,發現六項基準測試的平均分數在這四個分流點之間的波動不超過0.3個百分點,證明分流點的選擇有相當大的容錯空間,不是一個需要精確調節的敏感超參數。
全量參數微調整個7B模型需要約70億個參數參與訓練,而DPVR-LF只訓練2億個參數(約占3%),卻在絕大多數測試上與前者旗鼓相當甚至略勝一籌。這個對比說明了一件反直覺的事:更多的訓練參數不一定帶來更好的圖文理解性能,關鍵在於把有限的訓練資源放在正確的地方。
七、分流點和融合層數的深入測試
研究團隊還專門做了兩組深入的消融實驗,進一步確認了設計選擇的合理性。
關於分流點的選擇,7B模型的測試覆蓋了第12、18、24層三個候選位置。結果顯示,第18層和第24層之間的性能差距僅有0.05個百分點,幾乎感知不到;但如果把分流點提前到第12層,六項基準的平均分會下降1.03個百分點——其中POPE單項就下降了3.5個百分點。這說明"過早分流"會導致圖片資訊在進入側支通道時還不夠成熟,就像摘了一個還沒熟的果子,再怎麼精心保存也彌補不了內在的不足。第18到第24層是一個安全的"成熟區間",在這個區間內分流,效果沒有顯著差異。
關於融合層數的選擇,研究團隊測試了K=1到K=4(即在最後1到4層進行圖文融合)的不同配置,每種配置都進行了3次獨立訓練取平均。結果表明,六項基準的平均分在K=1到K=4之間的變化幅度只有0.19個百分點——K=2比K=1提升0.18個百分點,K=3提升0.06個百分點,K=4甚至略降0.01個百分點。這個"K飽和"現象在13B模型上同樣復現,K=1和K=2之間差距僅0.08個百分點。由此可以確認,單個融合層已經觸達了性能天花板,增加更多融合層只是在浪費額外的計算資源。
八、側支通道的深度也只需要"一層"
對側支通道本身的深度也做了系統測試。在7B和13B兩個規模上,研究團隊分別測試了側支通道深度為1層、2層、3層的情況。結果幾乎出乎意料地一致:7B模型的六項均分在深度=1時為0.668,深度增加到2層後降至0.667(降0.11個百分點),3層後繼續降至0.665(降0.27個百分點);13B模型的表現同樣平穩,深度從1到3層的最大變動幅度僅0.12個百分點。更有意思的是,在BLINK這個專門考查視覺推理長尾能力的測試上,隨著側支通道深度增加,分數單調下降——從0.407(深度1)降至0.394(深度3),暗示更深的側支通道反而可能讓模型在淺層的圖片表示上過度擬合,影響最終的融合效果。
這一發現再次確認了一個核心結論:一層側支通道已經足夠,多一層都是累贅。
九、實際運行速度的測試結果
理論上節省了計算量,在真實硬體上能否轉化為實際的速度提升?研究團隊在三種不同的GPU硬體上(NVIDIA A800 80GB、RTX PRO 6000 Blackwell 97GB、RTX 5880 Ada 48GB)進行了詳細的實測。
在A800上,7B模型的DPVR-LF延遲為173毫秒,原版為240毫秒,節省了28.0%——與理論預測的26.8%高度吻合,誤差在1.2個百分點以內。在Blackwell上,13B模型的DPVR-LF(分流點=24層)延遲為69毫秒,原版為81毫秒,節省14.8%。在計算密集度更高的5880 Ada上,13B模型的節省幅度擴大到23.1%(153毫秒對比200毫秒)——這說明在計算資源更加緊張的硬體環境下,跳過圖片計算的收益反而更加顯著,不存在硬體特定的性能陷阱。
值得特別說明的是,DPVR-LF目前的速度提升主要體現在"預處理階段"(Prefill,即處理完整輸入序列的階段),而在"逐詞生成階段"(Decode)目前尚未實現加速,原因是現有實現還沒有適配DPVR-LF的KV緩存格式。研究團隊坦誠地將這個問題標註為"工程層面的待改進項",並指出這不是架構本身的缺陷,未來通過適配的KV緩存管理代碼即可解決。對於典型的多模態AI應用來說(處理長圖文提示),預處理階段往往是主要的耗時環節,因此現有的加速效果已經具有實用價值。
研究團隊還測試了不同文本長度(64到1024個詞)下DPVR-LF節省幅度的穩定性。結果顯示,在64到512個詞的範圍內,節省幅度在14.4%到17.7%之間保持穩定;只有當文本長度達到1024個詞時,由於文字計算量占比急劇上升,圖片計算的節省比例被稀釋,節省幅度收窄到8.0%——但仍然是正向節省。在最常見的128到512個詞範圍內,節省效果最為顯著,而這恰好是圖文對話類應用最典型的輸入長度範圍。
十、模型的"記憶力"完好無損
一個自然的擔憂是:把圖片資訊提前"下車",會不會導致淺層共享部分的特徵被悄悄改變,進而破壞模型原有的語言能力?研究團隊對此進行了嚴格的驗證。他們比較了訓練完成後的DPVR-PC和DPVR-LF模型在共享淺層(第0到第17層)上的隱狀態,與原版凍結的LLaVA的對應隱狀態的差異。結果顯示,對500個測試樣本、每一個處理站,兩者之間的餘弦相似度中位數均超過0.99989——差異僅為約萬分之二,而這個微小的差距完全在bf16浮點計算精度的誤差範圍之內(理論誤差上限約為8×10??)。換句話說,淺層權重與原版LLaVA在數值上幾乎逐位相同,語言能力的基礎沒有受到任何影響。
說到底,這項研究講的是一個關於"效率"和"有的放矢"的故事。把同一件工具無差別地用在所有材料上,未必是最聰明的做法;真正有效率的工匠,會在合適的時機換用合適的工具。北京大學與清華大學的研究團隊通過細緻的觀察和巧妙的設計,證明了只需要3%的可訓練參數,通過在正確的地方"做加法"(一個單層側支通道)、在正確的地方"做減法"(跳過13層深層圖片計算),就能在保持甚至略微提升性能的同時,節省近三成的實際運行時間。
這項發現挑戰了長期以來"圖片也需要走完所有32層"的默認假設,為未來多模態AI的架構設計提供了一個新的思路方向:視覺資訊和語言資訊有著不同的"生命節律",一個好的架構不應強迫它們始終步調一致,而應尊重各自的自然成熟節點,在需要的時候合流,在不需要的時候分道。後續研究可以沿著幾個方向延伸探索:將這套分析方法遷移到更新的視覺編碼器(如SigLIP)和更大的模型架構(如LLaVA-Next);設計"稀疏非連續融合層"取代單一末層融合;或者針對多圖關係推理和跨語言任務設計"任務感知型融合",動態分配融合層資源。有興趣深入了解的讀者,可以通過arXiv編號2606.09131查閱完整論文和開源代碼。
Q&A
Q1:視覺飽和現象是什麼意思,為什麼圖片資訊會"提前飽和"?
A:視覺飽和指的是圖片資訊在神經網路的中間層就已經完成了主要的特徵提取,後續更深的層對圖片資訊的改變趨近於零。LLaVA-1.5-7B的測試顯示,圖片隱狀態從第0層起相鄰層間的相似度就穩定在0.92以上,文字對圖片的注意力也在前4層內從0.68驟降至0.07並此後長期維持在0.04左右,說明深層處理對圖片幾乎是無效的重複操作。
Q2:DPVR-LF只有3%的可訓練參數,為什麼不乾脆訓練整個模型以追求更高精度?
A:實驗結果顯示,全量微調7B模型和DPVR-LF在8個基準測試上的表現非常接近,多數測試DPVR-LF持平或略優,說明對於圖文理解任務,額外的參數更新收益很小。DPVR-LF的2億可訓練參數集中在模態路由的關鍵節點,是針對"視覺飽和"現象精準設計的結構,這比將有限梯度信號分散到所有70億參數上效率更高。
Q3:DPVR-LF在哪些任務上效果變差,原因是什麼?
A:BLINK(多圖關係推理,差約2個百分點)和MMBench-CN(跨語言圖文對齊,差約1.9個百分點)是相對較弱的兩項。這兩類任務需要模型在回答時進行更深層次的圖文交叉比對,單一末層融合提供的一次圖文注意力機會不足以完全彌補前13層無圖處理的資訊缺口,因此性能有所下降。






