先看先想：UC Santa Cruz等機構發現，AI視覺模型「眼睛」出問題時，讓它多想也沒用

這項由加州大學聖克魯茲分校、亞馬遜、滑鐵盧大學聯合開展的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2605.20177。有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

你有沒有遇到過這樣的經歷：當你帶著眼鏡度數不對去看一份文件時，無論你怎麼仔細辨認、反覆確認，最終看到的字依然是錯的。問題不在於你腦子不夠用，而在於眼睛傳進來的資訊本就失真了。這個再簡單不過的生活經驗，恰好揭示了當前最先進的AI視覺助手正在面臨的核心困境。

近年來，視覺語言模型（Vision-Language Models，通俗來說就是"能看圖、能思考、能回答問題的AI"）取得了長足進步。研究者們為了讓這類AI更聰明，拼命訓練它"多想幾步"——讓它在回答之前先把思考過程一步一步列出來，就像數學考試要求"寫出解題過程"一樣。這種策略被稱為"鏈式思維推理"，在純文字領域確實大幅提升了AI的表現。

然而，這項研究的團隊在仔細分析了大量AI答題記錄後，發現了一個令人驚訝的現象：對於視覺任務來說，很多時候AI答錯並不是因為"想得不夠"，而是因為"看錯了"。更棘手的是，一旦AI在最開始看圖時就理解錯了某個細節，後續無論它思考多少步、反覆檢查多少遍圖片，依然會在同一個錯誤上打轉，無法自我糾正。

研究團隊分析了三個視覺數學數據集中Qwen3-VL-8B模型的錯誤答案，發現其中高達86.9%的錯誤根源都是視覺感知出了問題——也就是說，AI"看"錯了圖，而不是"想"錯了題。這個數字讓研究者意識到：一直以來，大家把訓練精力都放在提升"思考能力"上，卻忽視了"看圖能力"這個更基礎的環節。

基於這一發現，來自加州大學聖克魯茲分校、亞馬遜、滑鐵盧大學的研究團隊提出了一套全新的訓練框架：把AI的視覺能力拆分成三個獨立的部分，按照從基礎到複雜的順序依次強化，就像打地基蓋房子一樣，先把基礎打紮實，再往上蓋牆加頂。這套方法簡潔但效果顯著，讓模型在視覺數學推理任務上提升了5.2%，同時推理過程還縮短了20.8%——更準確，更簡潔，這兩件事居然同時實現了。

贊助商廣告

---

一、一個看似簡單卻困擾著整個行業的問題

要理解這項研究在做什麼，先從一道數學幾何題說起。論文中提到的一個典型案例：給AI一張幾何圖形，圖上標著幾段線段的長度，題目問某條線段BD的長度。正確解題需要先認清圖中各個切點的位置關係，再用相關的數學定理推導。

當AI在最開始就把兩段線段的長度對應關係讀錯時——比如把AP讀成了5，把AC讀成了3，而實際上兩者應該相等——後續的推理就全部建立在這個錯誤的基礎上了。AI意識到了矛盾，於是反覆"重新檢查圖片"，每次檢查的結論依然是AP=5、AC=3，因為它的"眼睛"（視覺感知模組）沒有得到任何實質性的改善，看到的還是同一個錯誤的資訊。最終，AI產生了大量繁複的推理文字，卻無法得出正確答案。

與之形成鮮明對比的是：如果AI一開始就正確識別了圖中的幾何關係，知道AC=AB=3，那麼整個推理過程可以極為簡潔——直接用切線長度相等的性質，兩三步就得出BD=2，乾淨利落。

這個對比說明了一件重要的事：思考的質量依賴於感知的準確性。感知錯了，再多的思考只是在放大錯誤。

研究團隊把這一現象總結為一條核心判斷：**更長的思考無法修復錯誤的感知**。這聽起來很直白，但它對整個AI視覺推理領域的訓練方式提出了根本性的質疑——如果大家一直在努力的方向（增強推理）並不是解決問題的關鍵所在，那真正應該做的是什麼？

---

二、把AI的能力拆成三層，一層一層地打磨

研究團隊的核心思路是：與其把各種能力混在一起訓練，不如把它們分開，針對每一種能力單獨強化，再按照合理的順序組合起來。

他們把視覺語言模型的能力分成了三個層次。第一層是視覺感知，也就是AI能不能準確看清圖片裡的內容——細節在哪、物體是什麼顏色、空間位置關係如何、有幾個物體、圖上的字怎麼寫。這是最基礎的能力，相當於人的"眼力"。第二層是文字推理，也就是當題目完全以文字形式呈現時，AI能不能做多步驟的邏輯推理和數學運算。這相當於人的"思維能力"，不依賴視覺。第三層是視覺推理，這才是最終的綜合能力——既要看清圖，又要在此基礎上進行複雜推理，比如解幾何題、分析圖表趨勢、理解示意圖中的邏輯關係。

贊助商廣告

這三層能力的關係，用蓋房子來比喻再恰當不過：視覺感知是地基，文字推理是承重牆，視覺推理是最終完工的建築。如果地基沒打好，牆蓋得再高也不穩。

基於這一認識，研究團隊設計了"分階段訓練"方案：先專門訓練視覺感知能力，再訓練文字推理能力，最後訓練視覺推理能力，三個階段依次進行，每個階段使用專門針對該能力設計的訓練數據。這個過程被命名為"分階段後訓練框架"。

---

三、最難的部分：怎麼教AI"看得更准"

訓練文字推理和視覺推理，已經有很多成熟的方法和現成的數據集可以用。但訓練"視覺感知"這件事，聽起來簡單，實際上有個微妙的挑戰：你怎麼知道一道題"考的是感知"而不是"考的是推理"？

研究團隊為此專門設計了一套數據篩選流程，堪稱精妙。他們首先從一個名為DOCCI的數據集入手——這個數據集包含約1.5萬張圖片，每張圖片都配有一段極其詳細的文字描述，把圖中的每個細節都用語言表達清楚了。

團隊讓另一個強大的語言模型（Qwen2.5-72B）閱讀這些文字描述，然後自動生成問答題——問題專門針對圖中的視覺細節，比如"圖中有幾盞路燈？"或"哪個字母看起來是最近刷新過的？"這樣，問題的答案可以從文字描述中找到，但原始依據藏在圖片裡。

接下來是關鍵的"篩選"步驟——研究團隊把這些問題分別用兩種方式測試AI：一種是給AI看圖片來回答，另一種是給AI看文字描述來回答。如果AI看了文字描述能回答對，但看了圖片卻回答錯了，那這道題就被保留下來了。為什麼？因為這恰好說明：這道題所需的資訊在圖中客觀存在，只是AI的視覺感知沒能正確提取出來——這正是"感知缺陷"的完美體現。

這個篩選過程還用了兩個不同規格的AI模型（Qwen2.5-VL-7B和Qwen2.5-VL-32B）來交叉驗證，確保篩出來的題目確實是感知難題而非其他類型的難題。最終得到的這批數據，就專門用來訓練AI的視覺感知能力。

贊助商廣告

舉兩個具體例子來說明這類數據長什麼樣。第一題：一張夜晚橋樑的照片，問"河面上反射了幾盞路燈？"正確答案是七盞，而如果只是粗看圖片很容易數錯。第二題：一張牆上塗鴉的照片，寫著"GUEST"這個單詞，問"哪個字母看起來是最近才重新塗刷的？"正確答案是字母S，因為它的顏色更深、油漆更新，但這需要仔細辨別每個字母的色澤和紋理。這兩道題都要求AI具備精細的視覺辨別能力，不是隨便掃一眼就能答對的。

---

四、比讓AI"多想"更重要的，是讓AI"換種方式學"

在確定了用什麼數據訓練感知能力之後，團隊還研究了一個更深層的問題：用什麼訓練方式效果最好？

最直觀的思路是"讓AI記答案"——給它看圖，告訴它正確答案，讓它反覆學習圖片和答案之間的對應關係。這種方式在AI領域叫做"監督微調"（SFT），是訓練視覺語言模型最常見的方法之一，也是早期大量工作依賴的技術路線。

然而，研究團隊發現，對於視覺感知訓練來說，這種方式效果反而不如另一種更"主動"的訓練方式——基於可驗證獎勵的強化學習（RLVR）。

用一個類比來理解這兩種方式的區別：監督微調就像死記硬背——老師把正確答案都給你了，你只需要反覆背誦；而強化學習則像自己摸索——AI自己嘗試各種回答，對的就給予鼓勵，錯的就給予懲罰，AI在這個過程中逐漸學會什麼樣的視覺理解是準確的。

為什麼強化學習對感知訓練更有效？研究者解釋了一個核心原因：監督微調使用的是"固定答案"來訓練，但如果這些答案來自的標註質量不如模型本身的預訓練水平，反而會拉低模型的表現。更重要的是，監督微調是"被動接受"的學習方式，模型在訓練時不一定真的在學習"如何更準確地從圖片中提取資訊"，而可能只是在學習"哪種答案格式是被期待的"。強化學習則不同，它讓模型保持在自己真實的能力狀態下不斷嘗試，通過真實的對錯反饋來調整內部的視覺處理機制，得到的改善更加穩固。

贊助商廣告

數據也印證了這一點：在WeMath（一個視覺數學推理基準測試）上，用強化學習訓練感知的Qwen2.5-VL-7B模型比用監督微調的同款模型高出了8.1個百分點；對於更強的Qwen3-VL-8B模型，這一差距是1.6個百分點。

---

五、分開訓練，還是混在一起訓練？實驗給出了清晰的答案

除了"用什麼訓練感知"，團隊還系統地研究了"按什麼順序訓練"這個問題。

傳統做法是"合併訓練"：把感知數據、文字推理數據、視覺推理數據統統混在一起，打亂順序，一起訓練。這種方式的好處是簡單方便，訓練一次就搞定。

研究團隊設計了嚴格的對照實驗，把這種合併訓練方式與他們的分階段訓練方式進行了全面比較。結果相當清晰：在兩個不同規模的模型（Qwen2.5-VL-7B和Qwen3-VL-8B）上，分階段訓練在幾乎所有測試項目上都優於合併訓練。

以Qwen3-VL-8B為例：合併訓練後，模型在視覺數學推理方面的平均得分是49.6%；而分階段訓練後，這個數字提升到了51.1%。同時，分階段訓練的模型在回答問題時產生的文字要短20.8%——平均每次回答445個詞，而合併訓練的模型需要562個詞。換句話說，分階段訓練不僅讓AI答得更准，還讓AI答得更簡潔。

這兩件事同時發生，並不是巧合。研究團隊解釋說，這恰恰證明了核心觀點：當AI的視覺感知變得更準確，它在推理過程中就不需要反覆"重新檢查圖片"、反覆質疑自己的視覺判斷了。感知準確，推理自然流暢簡潔；感知有誤，推理就會陷入冗長的自我懷疑和反覆核查的循環。

為了驗證這個結論不只適用於某一個模型系列，團隊還在完全不同架構的模型上進行了測試，包括InternVL3.5-8B和InternVL3-8B。結果同樣支持分階段訓練：InternVL3-8B在分階段訓練後整體提升了3.77%，InternVL3.5-8B提升了0.95%。跨越不同架構的一致結論，大大增強了這一發現的可信度。

---

六、順序不能亂：視覺感知必須先來

贊助商廣告

研究團隊進一步追問：分階段訓練的三個階段，順序重要嗎？能不能把感知訓練放到最後？

為了回答這個問題，他們測試了三種不同的訓練順序。第一種是他們推薦的順序：先訓練視覺感知，再訓練文字推理，最後訓練視覺推理。第二種是把前兩個階段交換：先文字推理，再視覺感知，最後視覺推理。第三種是完全顛倒：先視覺推理，再文字推理，最後視覺感知。

實驗結果非常有說服力：第一種和第二種順序的效果相差不大，兩者都明顯好於合併訓練。這說明視覺感知和文字推理這兩個"基礎能力"的訓練順序相對靈活，兩者都可以排在視覺推理之前，互換位置不影響大局。

但第三種順序——把視覺推理放在第一位、把感知訓練放到最後——效果就差多了。對於Qwen2.5-VL-7B，這種順序下視覺數學平均得分從42%以上跌到了37.7%，感知能力也跌到了74.2%，幾乎和沒有訓練一樣。

這個結果的解讀是：當AI一開始就在感知尚不準確的情況下學習複雜的視覺推理，感知錯誤和推理過程會緊緊地纏繞在一起，互相干擾，形成難以解開的"壞習慣"。等到最後再去訓練感知，已經很難把之前養成的錯誤模式糾正過來了。視覺感知必須先打好基礎，才能讓後續的推理訓練真正發揮作用。

---

七、兩種維度的"學習課程"，疊加起來效果更好

在教育學領域，有一個古老而有效的原則：由易到難。先教簡單的內容，等學生掌握了再教難的。這種方式叫做"課程學習"，在AI訓練領域也有對應的實踐——把訓練數據按照難度排序，讓AI先學簡單的，再學難的。

研究團隊在提出"按能力分階段訓練"的同時，也思考了這兩種訓練策略之間的關係：按能力分階段，是一種維度的課程安排；按難度排序，是另一種維度的課程安排。這兩者能不能疊加使用，獲得更好的效果？

為了檢驗這個問題，團隊設計了四種配置並進行對比：完全混合訓練（沒有任何順序）、只按能力分階段（也就是前文的分階段訓練）、只按難度排序（數據全部混合但從簡單到難排列）、以及同時按能力分階段又在每個階段內按難度排序。

贊助商廣告

難度的判斷方式也很直觀：對每道題，讓AI嘗試回答16次，統計答對的概率。答對概率高的題是簡單題，答對概率低的是難題，這樣就得到了每道題的難度評分。

結果顯示，只按能力分階段的平均得分是60.53%，只按難度排序的是60.36%，兩者都比完全混合訓練（58.56%）好。而把兩者結合起來，得分進一步提升到62.99%，比任何一種單獨方法高出了2%以上。

這個發現在概念上也很有意思：按能力分階段，解決的是"學什麼"和"什麼時候學什麼類型的技能"的問題；按難度排序，解決的是"用什麼難度的材料來學"的問題。這兩個問題是獨立的，互不干擾，自然可以同時優化，疊加效益。

---

八、最終成績單：在真實測試中的表現

研究團隊把經過分階段訓練的模型與當前公開的多個同類模型進行了全面比較，測試涵蓋了視覺數學推理和視覺感知兩大類共八個具體的評測基準。

在數學推理方面，以MathVista（一個綜合視覺數學測試集）為例，分階段訓練的Qwen3-VL-8B達到了75.9%的準確率；在WeMath（一個更側重數學推理深度的測試）上達到56.1%。在視覺感知方面，RealWorldQA（測試對真實世界圖片的理解）得分為74.5%，MMStar（綜合多項感知能力）得分為73.1%。

與同期公布的OneThinker-8B（一個專注於推理能力的類似規模模型）相比，分階段訓練的模型在WeMath上高出1.5個百分點，在RealWorldQA上高出3.0個百分點，整體平均得分達到65.8%，超過了所有同等規模的對比模型。

在7B規模的對比中，與GThinker、MMR1、OpenVLThinker等近期專注於推理能力的模型相比，分階段訓練的Qwen2.5-VL-7B在視覺數學平均得分上達到42.3%，同時保持了77.2%的視覺感知平均得分——也就是說，推理提升了，感知沒有下降，實現了真正意義上的全面提升。

---

研究團隊最後還有一個有趣的觀察值得一提：他們用一個AI工具分析了所有模型錯誤回答中的感知錯誤數量。在Qwen3-VL-8B的基礎版本中，三個測試集共有857個樣本被認定含有感知錯誤。經過合併訓練後，這個數字降到了805個；經過分階段訓練後，進一步降到了781個。方向一致，效果逐步疊加。

贊助商廣告

歸根結底，這項研究講述的是一個"先學會看，才能學會想"的故事。當AI能更準確地感知圖片中的資訊，後續的推理就不需要耗費大量精力去質疑、修正、反覆核查最初的視覺判斷，而是可以直接基於可靠的資訊進行高效推理。這不僅讓最終答案更準確，也讓整個推理過程更加簡潔。

對於從事AI應用開發的人來說，這意味著在訓練視覺推理AI時，專門為感知能力設計訓練數據和訓練階段，可能比單純增加推理訓練量更有價值。對於關注AI發展的普通人來說，這項研究提醒我們：AI犯錯的原因往往比我們想的更"基礎"——不是它不夠聰明，而是它"沒看清楚"。而解決這個問題的方式，也出人意料地接近人類學習的邏輯：先打好基礎，再談提高。

感興趣的讀者可以通過arXiv編號2605.20177獲取這篇完整論文，或訪問項目主頁 ucsc-vlaa.github.io/VLM-CapCurriculum/ 了解更多實驗細節和訓練數據。

---

Q&A

Q1：視覺感知訓練和普通的視覺推理訓練有什麼區別？

A：視覺感知訓練專門針對AI"看清圖片"的能力，比如認清顏色、數量、位置關係等基礎細節，不需要複雜的邏輯推理。而視覺推理訓練則是在看清圖的基礎上進行多步驟思考，比如解幾何題。這項研究的核心發現是，感知能力必須單獨強化，不能寄希望於通過推理訓練一併解決。

Q2：分階段訓練為什麼能讓AI回答問題時用的字更少？

A：當AI的視覺感知更準確時，它在推理過程中不需要反覆"重新查看圖片"來核實自己看到的資訊是否正確。感知准了，推理路徑就直接了；感知有問題，AI就會不斷質疑、反覆確認，產生大量多餘的文字。分階段訓練讓AI減少了20.8%的回答長度，同時準確率反而更高。

Q3：強化學習比監督微調（記答案的方式）更適合訓練視覺感知的原因是什麼？

A：監督微調相當於給AI一套固定答案讓它背，如果這些答案質量一般，反而會拉低模型原有水平。而強化學習讓AI自己嘗試，通過真實的對錯反饋來調整視覺理解方式，學到的是真正的感知能力而不是答案格式。實驗顯示，在視覺數學測試上，強化學習方式比監督微調高出1.6%到8.1%不等。

贊助商廣告