中科院瀋陽自動化研究所揭秘：為什麼讓AI「先看圖再思考」，能讓視覺問答更誠實？

這項研究來自中國科學院瀋陽自動化研究所機器人與智能系統國家重點實驗室，同時有中國科學院大學參與，論文以arXiv預印本形式於2026年6月17日發布，編號為arXiv:2606.19120。感興趣的讀者可以通過該編號檢索完整論文。

贊助商廣告

**一個讓AI"睜眼說瞎話"的訓練陷阱**

假設你雇了一名新助理，讓他幫你回答問題。你給他看一張照片，然後問他照片裡有什麼。但在他回答之前，你悄悄把正確答案貼在了他腦門上。他當然能回答正確——但他究竟是真的看了照片，還是只是讀了貼在自己腦門上的答案？

這就是當前主流的"多模態大語言模型"（你可以理解為"既能看圖又能說話的AI"）訓練方式所面臨的核心困境。這類AI在接受訓練時，有一種叫做"在線自蒸餾"的技術——簡單說，就是讓模型用自己生成的答案來練習，同時用一個"特權版本的自己"來提供密集的逐詞糾正信號，這個特權版本的AI能預先看到標準答案。這個設計在純文字推理任務上效果很好，但一旦引入圖像，麻煩就來了。

當AI在寫推理過程時，那個"特權老師"已經知道了正確答案，它會不斷用答案來引導每一個詞的生成方向。結果，AI學會的是"如何寫出一段能和已知答案自圓其說的推理過程"，而不是"如何真正看懂圖片再推理出答案"。這就像一個學生在考試前已經知道了答案，然後倒推出一段聽起來像是認真分析的解題過程——漂亮，但不誠實。

研究團隊把這個問題叫做"快捷路徑"（shortcut）：AI走了一條繞開圖片的捷徑，直接用文字答案來推動推理，導致它對圖片的依賴越來越弱。這在日常問答中或許不明顯，但一旦遇到"圖片內容與常識相反"的情況，AI就會原形畢露——它會根據常識或已知答案來回答，而不是真的看圖說話。

為了解決這個問題，研究團隊提出了一個叫做**ViGOS**（Visual Grounding On-Policy Self-Distillation，視覺錨定的在線自蒸餾）的新訓練框架。核心思路是：**先讓AI描述圖片，再讓它基於描述進行推理**。兩個階段用不同的"老師"來督導，從根本上切斷了答案對視覺描述的污染。

贊助商廣告

---

**一、"特權老師"的雙刃劍：在線自蒸餾為什麼對文字有效，對圖片有害**

要理解ViGOS為什麼能解決問題，首先得弄清楚原來的訓練方式是怎麼運作的，以及它的問題出在哪裡。

在線自蒸餾的基本邏輯可以這樣理解：一個學生在做練習題，每寫一個字，旁邊都有一個"老師版的自己"在看，這個老師事先知道正確答案，會用答案來判斷學生每一個字寫得是否合適，並給出密集的糾正信號。學生在自己生成的草稿上接受訓練，而不是照著老師寫好的範文抄——這樣就避免了"練習時和考試時用的思路不一樣"的問題。

對於純文字推理（比如數學題、邏輯題），這個設計很自然：知道答案的老師引導學生一步步把推理邏輯寫對，本來就是合理的教學方式。文字推理的所有資訊都來自題目本身，老師知道答案，所以能在每一步告訴學生"這個方向對，那個方向不對"。

然而，多模態AI的情況完全不同。這類AI同時接收圖片和文字兩種輸入，而文字往往比圖片更"容易抓"——畢竟，文字是精確的、線性的，而圖片是模糊的、多義的。當一個已經知道正確答案的老師在旁邊盯著，AI很容易就學會了：我只要在推理里順著答案的方向寫就行了，不一定要真的仔細分析圖片。

研究團隊為了量化這個問題，設計了一個叫做"特權答案泄露率"（PALR，Privileged Answer Leakage Rate）的診斷指標。這個指標的工作原理很直觀：固定一段AI生成的回答，然後分別用"知道正確答案的老師"和"用錯誤答案替換後的老師"來給每個詞評分。如果兩者差距很大，說明老師的糾正信號主要來自答案，而不是來自圖片內容。同時也測量"換一張不相關圖片後評分變化了多少"，用來衡量圖片對糾正信號的貢獻。

檢測結果令人警醒。在3B參數規模的模型上，推理和答案部分的PALR高達17.26%；在7B規模模型上，更是飆升到26.01%。換句話說，在這個規模下，超過四分之一的密集糾正信號是由答案主導的，而不是由圖片主導。這意味著AI正在用答案來反向構造推理，而不是用圖片來正向推導答案。

贊助商廣告

---

**二、把"先看圖後推理"寫進訓練流程：ViGOS的核心設計**

ViGOS的解決思路可以用一個廚師培訓的比喻來理解。

傳統的廚師培訓方式（對應原來的在線自蒸餾）是這樣的：學員在烹飪時，旁邊有一個知道菜譜最終口味的大廚在盯著，從第一步加鹽到最後出鍋，大廚都會根據"我知道最後應該是什麼味道"來告訴學員每一步做得對不對。問題是，學員可能根本沒有認真品嘗食材的原味，只是學會了"怎麼做出聽起來符合大廚預期的菜"。

ViGOS的做法是把烹飪過程拆成兩段：**第一段是食材鑑別**，學員先認真觀察和描述每種食材的顏色、氣味、質地——這個階段，沒有大廚在旁邊，也不告訴學員最終做什麼菜，只有一個只看食材不管菜譜的"感官老師"在旁邊，確保學員真的在描述食材本身。**第二段才是烹飪推理**，基於學員自己寫下來的食材描述，知道菜譜的大廚才出現，引導學員完成剩餘的烹飪步驟和最終判斷。

對應到AI訓練，ViGOS的具體做法是：

AI生成的每一段回答被拆分成三個部分——圖片描述（d）、推理過程（r）和最終答案（a）。AI被要求用固定的格式來組織回答：先用``標籤寫圖片描述，再用``標籤寫推理過程，最後給出答案。這三段由不同的"老師"來督導。

在描述階段，監督AI的是一個**純圖片感知老師**。這個老師的特殊之處在於，它在評分時只能看到圖片本身，看不到題目文字，更看不到正確答案。它的唯一職責是確保AI在描述階段真的在描述圖片，而不是在湊合著往答案方向寫。

在推理和答案階段，監督AI的才是**特權推理老師**。這個老師能看到正確答案，引導AI基於圖片描述完成推理。關鍵在於，此時圖片描述已經由AI自己寫在前面了，特權老師在引導推理時，其實也是在已有描述的基礎上操作，而不是從零開始繞開圖片。

此外，還有第三種老師——**參考老師**。這個老師只在AI生成的回答格式出錯時才介入，比如AI沒有寫``標籤、描述段落是空的、或者答案無法解析時。參考老師的作用是把格式拉回正軌，而不是成為默認的主力老師。之所以要有這個設計，是因為如果格式錯了，前兩個老師的分工就失效了，沒有可靠的"描述段落"和"推理段落"可以區分，所以需要一個兜底機制。

贊助商廣告

這種分段督導的設計，在形式上改變了答案進入訓練信號的時機：在原來的設計里，答案從第一個詞開始就影響每一步；在ViGOS里，答案只在圖片描述已經完成之後才參與指導。研究團隊用一個簡單的路徑公式來描述這個差異——原來是"答案→推理→答案"，ViGOS是"圖片→描述→推理→答案"。

---

**三、PALR診斷數據說明了什麼**

用上面提到的PALR指標來衡量，ViGOS的效果非常清晰。

在3B規模模型上，原來方法的推理和答案段落PALR是17.26%，ViGOS把它壓低到了6.33%；在7B規模模型上，從26.01%降到了7.56%。全段回答的PALR也分別從5.59%和7.55%下降到了3.07%和3.72%。

描述段落的PALR在ViGOS下是0.00%——這是"由構造決定的"結果，因為描述段落的監督老師根本看不到答案，所以在這個診斷里，答案對描述段落的糾正信號貢獻是零。

研究團隊還做了一個有趣的交叉驗證。ViLP（一個測試AI在圖片內容與常識矛盾時是否仍然遵從圖片的基準數據集）的得分，在7B規模模型上，原方法得到的分數遠低於3B模型（42.00% vs. 59.50%），說明更大的7B模型反而更依賴常識捷徑，對圖片的實際遵從度更差。而PALR診斷也顯示，7B模型在原方法下的推理段落PALR（26.01%）遠高於3B（17.26%）。這兩個獨立的測量工具指向同一個結論：PALR越高的模型，在圖片與常識衝突時越容易跟著常識跑。

研究團隊還做了一個詞級別的可視化分析。以一道"硬幣罐內容物統計"題為例，圖片裡有一張表格，分別列出11枚銀幣、36枚金幣和16枚其他硬幣，問總數是多少。ViGOS訓練的模型在描述段落里，"table"（表格）、"two columns"（兩列）、"11"、"36"、"16"這些詞都變成了以圖片驅動為主的藍色詞——說明這些數字和結構資訊的生成主要依賴圖片內容，而不是答案暗示。而在推理段落里，11+36+16的加法計算過程和最終答案"63"附近則出現了以答案驅動為主的紅色詞——說明在視覺證據已經寫明的前提下，答案引導幫助AI完成了計算和格式輸出。這種"描述藍、計算紅"的模式，正是ViGOS設計的預期效果。

贊助商廣告

---

**四、真實考場上的成績單：八大評測基準的實驗結果**

研究團隊在兩種規模（3B和7B參數）的Qwen2.5-VL模型上進行了實驗，對比了三種方案：原始基線模型、普通在線自蒸餾（OPSD）和ViGOS。訓練數據和計算預算完全相同，只有訓練方法不同。

評測基準涵蓋了廣泛的多模態推理場景。MM-Vet考察綜合視覺-語言能力，包括識別、OCR、空間理解和語言生成；MMMU和MMMU-Pro測試專家級跨學科多模態推理，後者相比前者更強調真正的圖像理解，減少了文字推理走捷徑的空間；MathVerse和MathVista考察視覺數學推理，需要模型真正理解幾何圖形、圖表和數學公式；MMSI、RealWorldQA和CV-Bench則專注於空間關係、計數、深度判斷等視覺接地性能力。

從整體數字來看，ViGOS對原始基線的提升是全面的。3B模型的Pass@5平均分（五次採樣中至少有一次正確的比例）從60.86%提升到71.97%，Avg@5平均分（五次採樣的平均正確率）從27.91%提升到41.35%。7B模型的Pass@5從68.13%提升到75.60%，Avg@5從45.38%提升到50.99%。

把ViGOS和普通OPSD相比，差距沒那麼懸殊，但有一些值得關注的模式。在3B模型上，ViGOS在Pass@5上略低於OPSD（兩者相差不到兩個百分點），但在Avg@5上略好。在7B模型上，ViGOS在Pass@5上超過了OPSD，Avg@5基本相當。最明顯的差距出現在需要具體圖像理解的任務上：RealWorldQA、MMSI、CV-Bench、MathVista這幾個需要真正"看懂圖"的基準，ViGOS在3B模型上均優於普通OPSD。

Pass@5和Avg@5這兩個指標的意義值得解釋一下。Pass@5就像考試允許交五份答卷、取其中最好的一份算分，它衡量的是"模型偶爾能想到正確答案"的能力。Avg@5則是五份答卷的平均分，衡量的是"模型每次都能穩定給出正確答案"的能力。ViGOS在Avg@5上的優勢意味著，它的答案不是偶然正確，而是更穩定地依賴圖片內容進行推理。

---

**五、真正的考驗：圖片和常識打架時，AI聽誰的**

贊助商廣告

上述八個基準主要測試AI在正常情況下的表現，而ViLP才是專門為"圖片與常識衝突"設計的壓力測試。

ViLP的測試邏輯是這樣的：給AI展示一張圖，圖裡的內容違反了某個常見認知，然後問AI一個需要看圖回答的問題，同時在題目中提示了那個常見認知。比如，問題說"自由女神像在紐約"，圖片卻展示了自由女神像出現在巴黎（背景是埃菲爾鐵塔），問AI"根據圖片，自由女神像在哪個城市"。正確答案是"巴黎"，因為題目明確要求"根據圖片"回答。

ViLP有兩個核心指標：Score衡量AI在這些衝突問題上正確率（能否真的遵從圖片），Prior衡量AI在非衝突問題上的正確率（有沒有因為過度矯正而把常識也扔掉了）。理想的模型應該是Score高、Prior也高——能在需要圖片時遵從圖片，但不會連正常常識都不用了。

實驗結果上，ViGOS在所有ViLP測試設置中都取得了最高的Score。以7B模型為例，原始基線的ViLP-F（帶有額外事實提示的版本）Score只有42.00%，普通OPSD提升到58.00%，而ViGOS達到62.67%。ViLP-P（純問題版本）上，原始基線37.00%、OPSD 57.00%、ViGOS 61.67%。Prior指標方面，ViGOS在7B上的兩個設置分別是97.00和91.67，與OPSD基本持平或完全相同，說明ViGOS沒有因為強調圖片而損失常識推理能力。

從訓練過程的動態變化來看，研究團隊繪製了訓練步驟與ViLP分數的關係圖。在訓練開始時，普通OPSD和ViGOS的起點相同。訓練開始後，兩者的Prior都保持高位，但Score的走向截然不同：普通OPSD先升後降，到100步時穩定在約0.63；ViGOS持續上升，到100步時達到約0.71。這個動態模式說明，普通OPSD在訓練過程中先幫助模型學到了一些圖片理解能力，但隨後答案驅動的訓練信號逐漸主導，把模型往捷徑方向拉；而ViGOS的分段設計持續地保護了圖片感知階段不受答案污染，圖片遵從能力在訓練過程中穩定積累。

---

**六、拆開每個零件檢驗：消融實驗的發現**

贊助商廣告

為了弄清楚ViGOS的哪個部分最關鍵，研究團隊做了系統的消融實驗——就像把一輛車逐個拆掉零件，看少了哪個零件車就開不走了。

去掉感知損失（即不再用純圖片老師來督導描述段落）之後，ViLP Score從69.84降到67.58，CV-Bench也下降了。這說明感知老師的作用是實質性的：如果描述階段沒有被"只能看圖"的老師約束，那麼描述內容就有可能受到題目文字和答案的影響，視覺錨定效果就會減弱。

去掉推理損失（即不再用特權推理老師來督導推理和答案段落）之後，整體Pass@5和CV-Bench都下降了，但ViLP Score只是小幅下降。這個模式很有意思：少了推理老師，模型在標準任務上的表現下降（畢竟標準任務需要答案引導來學習推理）；但ViLP上的下降不如預期大——因為沒有答案引導的推理老師，答案對模型的"綁架"也隨之減弱，模型某種程度上更依賴圖片，所以對常識偏差的抵抗力沒有明顯變差。這個現象恰恰印證了核心論點：答案引導是有用的，但它需要被放在正確的位置上，而不是貫穿整個回答流程。

關於參考老師的設計，實驗比較了三種方案：用逆向KL散度（ViGOS採用的方式）、用正向KL散度，以及完全去掉參考老師。完全去掉參考老師的影響最大，ViLP Score從69.84驟降到63.25。這說明格式兜底機制是必要的：當AI生成了格式錯誤的回答時，如果沒有參考老師介入，感知老師和推理老師的分工就會因為沒有可靠的段落邊界而混亂，結果就是特權答案又通過混亂的段落分配滲入了本應被保護的描述階段。比較逆向KL和正向KL，前者在CV-Bench和ViLP上都略好，所以ViGOS採用逆向KL作為參考老師的損失函數。參考老師的定位是"格式急救室"，而不是"主治醫生"，這一點通過上述實驗得到了確認。

---

**七、同一道題同一張答卷：排除提示詞效應的對照實驗**

一個合理的質疑是：ViGOS要求AI先寫圖片描述，這個格式要求本身是不是就讓AI更認真地看圖了，和訓練方式無關？

贊助商廣告

研究團隊用一個"同一格式，不同方法"的對照實驗來回答這個問題。他們讓原始基線模型、普通OPSD和ViGOS都使用同一種包含圖片描述的輸出格式，然後比較三者的表現。

結果很清楚地說明了問題。加上描述格式要求後，原始基線模型的表現確實有所提升——在MMSI、RealWorldQA、CV-Bench等幾個以視覺為核心的基準上，零樣本基線已經達到不錯的水平，說明格式本身確實有一定的促進作用。但關鍵在於，普通OPSD在加上這個格式後，表現反而比沒有格式要求的原始基線還要差：在MMSI上從66.40/23.88降到了58.00/20.90，在RealWorldQA上從84.05/53.31降到83.92/46.54，Avg@5的下降尤為明顯。

這個反直覺的現象說明：如果強制格式要求，但訓練時的密集糾正信號仍然是答案條件化的，那麼模型反而會學到一種"形似視覺描述、實為向答案靠攏"的文本策略——格式對了，但內容的視覺依據並沒有變強，甚至在Avg@5這個衡量穩定性的指標上更差了。ViGOS則在使用相同格式的情況下，在Pass@5和Avg@5上都超過了原始基線和OPSD，並在ViLP Score上同樣取得最佳結果。由此，研究團隊得出結論：ViGOS的效果主要來自分段監督的設計，而不是格式提示本身。

---

**八、五個"AI被常識帶偏"的真實案例**

研究團隊在ViLP的定性分析中展示了五個具體的錯誤案例，清晰地說明了兩種訓練方法的行為差異。

**案例一，地標位置問題**：圖片展示自由女神像出現在巴黎背景下（埃菲爾鐵塔清晰可見），題目提示"自由女神像在紐約"，問AI圖中自由女神像在哪個城市。OPSD的推理注意到了巴黎的視覺特徵，但最終判斷"題目是在考真實位置，所以答案是NYC"。ViGOS則在描述中明確寫出"背景可見城市景觀和一座塔及一座橋，具有巴黎的特徵，埃菲爾鐵塔清晰可見"，然後在推理中依據描述得出"Paris"。

**案例二，文字衝突問題**：圖片上顯示"1 km = 200 m"，題目提示"1公里等於1000米"，問AI圖中顯示的換算結果是多少。OPSD讀出了圖片上的等式，但認為它是錯的，最終答案是"1000"。ViGOS描述了圖片上的視覺方程式，認識到題目問的是"圖片顯示的結果"，答案是"200"。

贊助商廣告

**案例三，動物大小先驗**：圖片中大象明顯比長頸鹿高，題目提示"長頸鹿很高"，問圖中在河邊喝水的最高動物是哪個。OPSD依據"長頸鹿頸部比象鼻更長"的先驗推斷長頸鹿更高，答案是"Giraffe"。ViGOS在描述中注意到"大象在左，長頸鹿在右，兩者都在喝水"，在推理中根據圖中兩者的相對大小判斷"大象看起來明顯更高"，答案是"Elephant"。

**案例四，生物先驗問題**：圖片展示了一條魚的解剖圖，突出顯示了類似人類肺部的結構，題目提示"鰓讓魚能在水下呼吸"，問圖中幫助魚呼吸的是什麼。OPSD注意到了圖片裡的肺部結構，但最終判斷圖片是在"模擬鰓的功能"，答案是"Gills"。ViGOS描述了"魚體內明顯的肺部分支結構"，推理中指出"雖然題目提到了鰓，但圖片中突出顯示的是肺部"，答案是"Lungs"。

**案例五，工具使用先驗**：圖片中一隻啄木鳥正在用手鋸切割樹樁，題目提示"啄木鳥通常用嘴尋找蟲子"，問圖中啄木鳥用什麼來尋找蟲子。OPSD認為圖片是"不尋常的人工設定"，啄木鳥通常用嘴，所以答案是"Beaks"。ViGOS描述了"啄木鳥用手鋸切入樹樁，樹樁里有大量蟲子"，推理得出"圖中使用的工具是鋸"，答案是"Saw"。

這五個案例呈現了一個一致的規律：OPSD通常能在推理中提到關鍵的視覺線索，但最終答案仍然被常識或題目提示所主導；ViGOS通過先將視覺證據寫成描述，讓這些證據在推理階段已經作為"既成事實"存在於上下文中，從而在最終決策時給了圖片更重的權重。

---

說到底，ViGOS解決的問題看起來是個技術細節，但背後觸及了一個更深的問題：當AI同時接收多種類型的資訊時，它是否在真正地"用眼睛看"，還是只是在用已知的結論來填充一段聽起來有理有據的分析？

目前的研究展示了一個積極的方向：通過在訓練時給"看圖"和"推理"兩個階段分配不同的監督信號，可以在不大幅犧牲整體性能的前提下，顯著提升AI在圖片與常識衝突時對圖片的遵從度。這對於未來的實際應用非常重要——無論是醫學影像診斷、自動駕駛場景理解，還是讀圖輔助決策，AI都需要真正看懂圖片，而不是用常識來湊數。

贊助商廣告

當然，研究團隊也坦承了現有局限：AI生成的圖片描述可能不完整或不準確；純圖片感知老師在沒有題目文字的情況下可能生成偏泛化的描述；訓練時需要同時運行多個"老師"版本的模型，計算開銷增加。這些都是未來需要繼續改進的方向。

有興趣深入了解這項研究細節的讀者，可以通過arXiv編號2606.19120檢索完整論文。

---

Q&A

Q1：ViGOS和普通的在線自蒸餾訓練方法有什麼區別？

A：普通在線自蒸餾用一個知道正確答案的"特權老師"來監督AI回答的每一個詞，包括描述圖片的部分，導致AI在寫描述時就受到答案影響，學會了繞開圖片走捷徑。ViGOS把回答拆成"圖片描述"和"推理答案"兩段，前者只用一個不知道答案、只能看圖的感知老師來監督，後者才用特權老師，從而保證圖片描述階段不受答案污染。

Q2：PALR（特權答案泄露率）是什麼，怎麼理解它的數值？

A：PALR是研究團隊設計的一個診斷指標，用來測量AI訓練時的糾正信號有多少比例來自已知答案而非圖片內容。檢測方法是固定AI生成的回答，然後分別用正確答案和錯誤答案來給每個詞評分，差距越大說明答案影響越大。普通在線自蒸餾在7B模型上推理段落的PALR高達26%，ViGOS把它壓低到約7.5%，說明答案對推理段落的"綁架"程度大幅降低。

Q3：ViGOS在圖片與常識衝突的任務上為什麼比普通方法更好？

A：普通在線自蒸餾訓練時，答案從一開始就影響模型的每一步生成，模型學會了寫出"和答案自洽的推理"，而不是"基於圖片的推理"。當圖片和常識衝突時，模型往往會選常識那邊。ViGOS通過強制先生成純圖片描述，並用只看圖片的老師來監督這一步，讓圖片內容作為"已寫明的事實"進入後續推理上下文，在最終決策時給了圖片更高的權重，所以在圖片與常識矛盾的測試中表現更好。