這項由印度理工學院海得拉巴分校與微軟研究院印度分部聯合開展的研究,於2026年4月17日以預印本形式發布,論文編號為arXiv:2604.16060v1,歸類於電腦視覺領域。有興趣深入了解的讀者可通過該編號在arXiv平台查詢完整論文。
一、從"讓AI多思考"到"AI越想越錯"的意外發現
過去幾年,AI圈子裡有一個幾乎被奉為真理的信條:讓AI在回答問題之前先把思考過程一步步寫出來,它就會表現得更好。這種方法叫做"鏈式思考"(Chain-of-Thought,簡稱CoT),效果在數學題、邏輯推理題上屢試不爽,讓無數研究者和工程師深信不疑。
於是,這批來自IIT海得拉巴和微軟研究院的研究者產生了一個自然而然的疑問:如果讓AI在回答"圖片裡那個杯子在椅子的左邊還是右邊"這類空間問題之前,也先把思考過程寫出來,效果會不會同樣出色?
結論讓人大跌眼鏡。
研究團隊花費大量精力,對17個不同的AI視覺模型進行了系統性測試,橫跨13個專門考察空間理解能力的測試集,涵蓋了從簡單的"誰在誰的左邊"到複雜的"從這個角度看,那個物體在三維空間中的哪個方位"等各種類型的空間問題。測試結果一致地指向同一個方向:當AI被要求在回答空間類問題之前先"想清楚",它的表現反而比直接回答時更差。平均來看,這種"先想後答"的方式讓準確率下降了約3%。
這就好比一個平時憑直覺打桌球打得很好的人,你突然要求他在每次揮拍之前都要用語言把整個動作分析一遍——結果反而手腳不協調,球打歪了。直覺和語言分析,有時候並不是好搭檔。
二、測試陣容有多強大,結論就有多可信
為了讓這個結論站得住腳,研究團隊的測試規模相當可觀。他們選取的17個模型涵蓋了兩大類:一類是經過專門"強化訓練讓AI學會推理"的多模態推理模型(Multimodal Reasoning Models,簡稱MRMs),另一類是更通用的多模態語言模型(Multimodal Language Models,簡稱MLMs)。
在推理模型這邊,研究團隊選取了8個當時業內表現最突出的開源模型,包括GThinker-7B、ViGoRL-7B-Spatial、Vision-G1-7B、R1-Onevision-7B、VL-Rethinker-7B、Vision-R1、TreeVGR以及ThinkLite-7B。這些模型都是在Qwen2.5-VL-7B這個基礎模型之上,通過大量專門設計的訓練數據和強化學習方法打磨出來的,其中ViGoRL和TreeVGR更是專門針對空間推理任務進行了額外訓練。此外還有一個叫Qwen3-VL-8B-Thinking的模型,它在設計時特別強調了對空間感知能力的增強。
在通用模型這邊,研究團隊納入了三個規模的Qwen2.5-VL系列(3B、7B、72B參數量),兩個規模的InternVL系列(8B和38B),以及LLaVA系列的兩個版本(7B和72B)。此外還測試了包括GPT-4o在內的多個GPT系列商業模型,包括GPT-4o、GPT-4.1-mini、GPT-5、GPT-5-mini和GPT-5-nano,使總測試模型數量達到17個。
13個測試集同樣經過精心挑選,分為兩大類。前7個聚焦於平面空間關係,也就是在單張圖片裡判斷物體的位置、大小、朝向等,包括BLINK、CV-Bench2D、MMVP、RealWorldQA、SpatialBench、VSR和V*Bench。後6個則難度更高,需要理解三維幾何、深度資訊、多圖聯繫或動態變化,包括3DSRBench、CV-Bench3D、MindCube、MMSIBench、OmniSpatial和SAT-Real。
為了讓比較公平,研究團隊統一了所有模型的評測格式,所有題目都採用選擇題形式,答題格式完全一致。答案的判斷由另一個小型語言模型擔任"考官",它和GPT-4o的打分結果之間的一致性係數高達0.99以上,基本可以認為兩者等價,保證了評測結果的可靠性。
三、"想太多"為何會拖後腿
研究團隊用了兩種不同的系統提示詞來測試每個模型。一種是"直答模式",模型看到圖片和問題後直接給出答案;另一種是"推理模式",模型被要求先在特定標籤內寫出完整的思考過程,再給出最終答案。對於那些專門訓練過推理能力的模型,研究團隊還特意使用了這些模型在訓練時所用的專屬推理提示詞,而非統一格式,以確保它們能發揮出最佳水平。
在通用模型這邊,這個規律體現得尤為清晰。以Qwen2.5-VL-7B為例,在直答模式下平均得分為62.68%,而在推理模式下只有59.68%,相差3個百分點。這個差距在7B、3B、72B三個規模上都穩定存在,分別為3%、2.57%和2.61%。跨越不同模型家族,InternVL3.5-38B直答比推理高4.48%,LLaVA-OV-72B高3.09%,連那個專門強化了空間感知的Qwen3-VL-8B-Thinking,直答也比推理高0.64%,並且在13個測試集中有8個表現更好。
在專門訓練過推理能力的模型這邊,情況更加戲劇化。8個開源推理模型中,有6個在直答模式下的表現好於推理模式。其中最極端的案例是GThinker-7B:它的推理模式得分是62.52%,而直答模式只有39.38%,足足差了23.14個百分點。這背後的原因是GThinker高度依賴它被訓練出來的那套特定推理格式,當你告訴它"不用推理,直接答",它根本不知道該怎麼做,乾脆開始重複輸出無意義的符號直到字數上限。這暴露出這類模型對推理格式的過度依賴——它們學會了一套固定的"表演流程",一旦流程被打斷,整個系統就崩潰了。
商業模型這邊的結論也和開源模型保持一致。GPT-5和GPT-5-nano在直答模式下分別高出推理模式0.65%和1.23%。雖然GPT-4o和GPT-4.1-mini在推理模式下稍微好一點,但差距不超過0.5%,以這點微弱的優勢換取推理時多出的大量計算成本,實在很難說划算。研究團隊還發現,商業模型的推理過程明顯更簡潔,GPT-5-mini的推理文字平均約350個字符,而Qwen3-VL-8B-Thinking的推理過程平均長達約3600個字符。商業模型的推理過程里也幾乎不出現"等等""讓我再想想""我需要重新考慮"這類反覆橫跳的自我糾正表達,研究團隊認為,這種簡潔可能正是商業模型受推理模式影響較小的原因之一。
四、去掉圖片,AI還能答對——這說明了什麼問題
這是整篇研究中最令人不安的發現,研究團隊將它命名為"無圖實驗"(No-Image)和"無圖++實驗"(No-Image++)。
無圖實驗的做法很簡單:把所有題目中的原始圖片替換成一張純灰色的無資訊圖片,然後讓模型繼續作答。按照正常邏輯,圖片裡什麼都沒有,模型應該沒有任何視覺依據,答對的概率應該接近隨機水平。但實驗結果顯示,大多數推理模型的得分遠高於隨機猜測水平。舉個具體的數字:GThinker-7B在正常情況下的平均得分是62.52%,在灰圖情況下仍然能得到44.17%,而隨機猜測的期望得分是38.83%。這意味著這些模型在看不到任何圖片資訊的情況下,依靠題目文字和自己積累的世界知識,就能回答對相當一部分空間題目。
這就像一個閉著眼睛參加考試的學生,卻因為憑記憶猜到了題目規律而答對了不少題——這不是真正的理解,這是走捷徑。
無圖++實驗在此基礎上更進一步,把一個新選項"無法從圖片中判斷"加入到每道題的選項里,並規定這個選項才是正確答案。換句話說,在這個實驗裡,一個真正"看到"圖片是灰色的模型,正確做法是選這個新選項。結果如何?絕大多數推理模型在這個實驗中的得分非常低。它們沒有選擇承認"看不出來",而是繼續自信滿滿地從原有選項中挑選答案,並且在推理過程中編造出詳細的視覺描述,說得好像真的看到了圖片一樣。
研究團隊在論文裡展示了一個典型案例。面對"樹和山洞的位置關係"這道題,ViGoRL在收到純灰色圖片後,推理過程寫道:"山洞入口似乎在圖片底部,而樹木位置更高,由此可以判斷山洞在樹木下方。坐標(300, 450)……山洞入口明顯位於圖片底部,也就是樹木的下方。坐標(250, 550)……"最終答案是"下方"。這個模型不僅給出了錯誤答案,還煞有介事地報告了精確坐標——而它看到的只是一張灰色圖片。
它所依賴的,其實是人類世界知識里"山洞通常在樹木下方"這條常識。這不是視覺推理,這是用文字編織的幻覺。
在所有測試的模型中,只有非推理模式下的Qwen2.5-VL-7B在無圖++實驗中表現最好,得分76.41%,也就是說它在大多數情況下能認識到"看不出來"。相比之下,R1-Onevision-7B只有5.55%,Vision-R1隻有7.29%,表現最差。這些模型越擅長"講道理",反而越難以承認"看不出來"。
五、推理模型為何連自己的基礎模型都比不過
這是研究團隊發現的另一個關鍵問題。8個專門訓練過推理能力的開源模型,有7個的平均得分低於它們的基礎模型Qwen2.5-VL-7B(直答模式)的62.68%。這些模型花費了大量計算資源,經歷了監督式微調和強化學習的雙重打磨,結果卻在空間推理這件事上還不如出發點。
研究團隊特別關注了為數不多的例外——Vision-G1,它的得分是63.26%,略高於基礎模型的62.68%。但研究團隊在無圖++實驗中發現,Vision-G1同時是對文字資訊依賴最嚴重的模型之一,也就是說,它那略微領先的表現,很可能並非來自真正更好的視覺理解,而是來自對題目文字規律和世界知識的更強利用。換句話說,它可能只是"作弊"作得更高明一些。
研究團隊還專門整理了一張表格,揭示了一個有意思的現象:這些推理模型在自己論文裡用來展示成績的測試集,主要都是數學類題目,比如MathVision、MathVista等,而非視覺空間類任務。GThinker的論文用了MMStar、RealWorldQA和MMMU-Pro來展示成績,R1-Onevision用了MathVision、Mathvista和Mathverse,VL-Rethinker用了MathVision、MMMU-Pro和MEGA,Vision-G1用了MathVista、MMMU-Pro、MMStar和ChartQA。這類測試集的共同特點是:答案主要依賴文字推理邏輯,而非真正的視覺感知。這些模型在數字遊戲上確實進步了,但進入真正需要"眼睛"才能解決的領域,提升就消失了。
六、這對未來的AI研究意味著什麼
研究團隊認為,這些發現指向一個根本性的問題:當前大多數推理AI的訓練方式是"以文字為中心"的——它們學會了用語言來思考,用語言來推理,但視覺資訊在這個過程中常常只是一個觸發器,而非真正參與推理的對象。空間理解要求的是直接感知圖像中的幾何關係、深度、方向,這些東西很難被轉化成流暢的文字推理鏈條,強行轉化反而可能引入扭曲。
由此,研究團隊提出了未來研究的兩個可能方向。一個方向是在推理過程中加入實時的視覺驗證機制:每推理一步,就檢查這一步的結論是否真的與圖片中的視覺證據相符,一旦發現不符,觸發回溯和修正,而非繼續在錯誤的文字邏輯上疊加更多錯誤。另一個方向是建立以視覺為主導的獎勵機制:在訓練AI的強化學習階段,明確獎勵那些真正從圖片出發進行推理的行為,而非僅僅獎勵推理過程是否流暢、答案是否正確。
歸根結底,這項研究傳遞的核心資訊是:讓AI"能說會道"並不等於讓AI"真正看懂"。多說話不是解決視覺問題的好方法,有時候,少說話、多看圖,才是正確的方向。下一代視覺AI的突破口,或許不在於更長的推理鏈條,而在於更深入地與圖像本身建立聯繫。這對於所有正在研究和使用AI視覺系統的人來說,都是一個值得認真對待的提醒。對這項研究感興趣的讀者,可以通過arXiv編號2604.16060查找完整論文,其中包含所有詳細的實驗數據和方法描述。
Q&A
Q1:鏈式思考(CoT)為什麼在空間推理任務上會讓AI表現變差?
A:鏈式思考要求AI用語言一步步描述推理過程,但空間關係(比如"誰在誰的左邊")本質上是視覺感知的結果,很難用語言邏輯準確還原。強行用文字分析圖片中的幾何關係,反而容易引入偏差,讓AI依賴文字常識而非真正"看圖"來回答問題,導致準確率下降。
Q2:無圖++實驗是怎麼做的,說明了什麼問題?
A:無圖++實驗把所有題目的圖片換成純灰色空白圖,同時在選項中加入"無法從圖片中判斷"這個正確答案。結果大多數AI推理模型仍然選擇原有選項,並編造出詳細的視覺描述,而非承認看不出來。這說明這些模型嚴重依賴文字題目和世界常識來猜答案,並非真正理解圖片內容。
Q3:專門訓練過空間推理能力的AI模型,為什麼還是比不過基礎模型?
A:這些推理模型雖然經過了大量強化學習訓練,但它們的訓練評測任務主要是數學題,不是視覺空間題。它們學會了更流暢的文字推理,卻沒有學會更好地理解圖片中的空間關係。在真正的視覺空間測試中,這種文字推理能力幫助有限,反而可能干擾對圖片的直接判斷。






