這項由微軟研究院(印度班加羅爾)與印度理工學院海德拉巴校區聯合開展的研究,於2026年4月發表,論文編號為arXiv:2604.16054v1,有興趣深入了解的讀者可通過該編號查詢完整論文。研究團隊構建了一套名為"Mind's Eye(心眼)"的視覺認知基準測試,用以系統評估當前最先進的多模態大型語言模型在視覺空間推理方面的真實能力。
當你第一次在入職測試或智力測驗中遇到那種"下圖中哪個摺疊後會變成正方體"的題目時,你可能會覺得稍微有點費神,但基本上幾秒鐘內就能作出判斷。現在,研究團隊把這類題目擺到了GPT-4o、Gemini-2.5 Pro、GPT-o3這些被譽為"最強AI"的系統面前,結果令人大跌眼鏡——人類平均正確率達到了80%,而這些頂尖模型的最高成績不足50%,有些甚至僅僅略高於蒙對的概率。這究竟是怎麼回事?這些AI在語言對話上無所不能,為什麼在這類"看圖思考"的任務上表現得如此拙劣?這正是這項研究想要徹底搞清楚的核心問題。
一、 為什麼要專門測試AI"看懂圖形"的能力
現代AI模型在很多視覺任務上表現搶眼——認出圖片裡的貓、讀出照片裡的文字、描述一張風景照里有什麼——這類工作它們做得非常出色。但這類任務本質上是"認出來",就像你看到一張老朋友的臉,立刻就知道是誰。
然而人類處理視覺資訊還有另一類能力,更像是在腦子裡搭樂高積木。當你看一張展開的紙板平面圖,你需要在腦海中把它"折起來",判斷它能不能拼成一個盒子;當你看一個三維積木圖案,你需要把它在腦子裡轉動,確認它的另一面長什麼樣。這種能力在認知科學中被稱為"視覺空間推理"或"流體視覺智能",是人類智力中相當核心的一部分,也是工程師、外科醫生、建築師等職業每天都在高度依賴的能力。
研究團隊發現,現有的AI評估體系有兩個嚴重的盲點。第一個盲點是,幾乎沒有人專門針對這種"在腦海中操作圖形"的能力進行系統測試,大多數評測都停留在"認出來"的層面。第二個盲點更隱蔽:很多視覺推理測試其實可以被AI用語言技巧來"繞過",模型不需要真正理解圖形,只需要識別出一些表面特徵,再結合它從大量文本訓練中積累的語言知識,就能猜出大概正確的答案,這就好像學生通過押題套路蒙對了考題,而不是真正學會了解題方法。
正因如此,這支團隊決心造一套無法靠"語言知識"取巧的純視覺推理測試,讓AI無處可藏。
二、 這套測試是如何設計的:一個專為挖出AI弱點的考試體系
研究團隊將人類視覺認知能力拆解成三個維度,並以此構建了整個測試框架,他們將其命名為"ART分類體系",三個字母分別代表抽象(Abstraction)、關係(Relation)和轉變(Transformation)。
抽象維度考查的是從一堆看似不同的圖形中找出它們共同隱藏規律的能力,就像你看五張畫面截然不同的畫,要找出它們共同遵循的某種視覺原則,再判斷第六張是否違反了這個原則。關係維度考查的是在兩組視覺結構之間識別對應關係的能力,類似於語言中的類比——"A之於B,如同C之於D"這種邏輯,但換成了視覺圖形的版本。轉變維度是三者中最接近"腦內模擬"的,它要求你在頭腦中執行一個實際的物理操作:把一張紙摺疊起來再看孔的位置會在哪裡,或者把一個三維積木結構旋轉90度後它長什麼樣。
基於這三個維度,研究團隊精心設計了八種具體任務。在抽象維度下有兩種:一是"視覺關係抽象",給出五個符合某抽象概念的圖形和一個不符合的,要求找出異類;二是"層次模式等價",基於分形樹、嵌套圓形等遞歸結構,要求識別哪一個圖案違反了遞歸規律。在關係維度下有三種:一是"動態結構對應",追蹤兩個圖形在時間序列中各自遵循的變換規律,預測下一幀的狀態;二是"視覺概念滑移",從一組圖形中找出不遵循多數圖形所共享的抽象視覺概念的那一個;三是"對稱結構",從四個線條圖案中找出那個不具備其他三個所共有的對稱性質的圖案。在轉變維度下有三種:一是"心理轉變",從四個候選旋轉結果中找出正確的三維旋轉;二是"紙張摺疊",根據一個紙張摺疊打孔的步驟序列,判斷展開後孔洞的位置;三是"心理組合",判斷一個平面展開圖摺疊後會變成哪個三維立體形狀。
這八種任務全部以程序化方式自動生成圖像,所有圖形都是純粹的幾何形狀,不包含任何現實世界的物體,也不依賴任何領域知識,確保AI無法利用它從文字訓練中積累的"世界知識"來投機取巧。每道題都包含四到六個選項,其中的錯誤選項(干擾項)是精心設計的,專門針對特定類型的推理錯誤——比如把旋轉結果和鏡像反射混淆的選項,或者摺疊次數算錯的選項。這樣一來,從模型選了哪個錯誤選項,研究者就能判斷出它是在哪個思維環節出了問題,而不僅僅是知道它答錯了。整套測試共包含800道題,每種任務各100道,難度分布涵蓋簡單、中等和困難三個層級。
為了確保難度級別的劃定是可靠的,團隊還邀請了30名年齡在20到40歲之間的普通成年人參與人類基線測試,每人完成覆蓋所有八種任務的完整測試。難度標定的方法相當嚴格:如果五名參與者中全部答對,那道題就被標為"簡單";如果只有零到一人答對,就標為"困難";介於兩者之間的標為"中等"。
三、 測試結果:AI的成績單令人尷尬
測試結果用一句話概括就是:人類遊刃有餘,AI集體掛科。
在所有參與測試的18個模型中,包括來自OpenAI的GPT-4o和GPT-o3、谷歌的Gemini-2.5 Pro,以及數十億參數規模的各種開源模型,沒有任何一個達到50%的總體正確率。與此同時,參與測試的普通人平均達到了80%的正確率。在具體任務上,人類在"層次模式等價"這道題上表現最好,達到了88%的正確率;即便是表現最弱的"視覺關係抽象"任務,人類也有68%的正確率。
相比之下,表現最好的Gemini-2.5 Pro在整體上仍然遠低於人類水平,而且在不同任務之間的表現差距極大。在需要"腦內摺疊"和"空間旋轉"的轉變類任務上,幾乎所有模型的成績都只比隨機亂猜高出一點點。以紙張摺疊任務為例,隨機猜測的正確率是25%,而大多數模型的正確率在24%到32%之間徘徊——這意味著這些模型基本上在亂猜。
在抽象類任務上,視覺關係抽象任務的結果更加觸目驚心:隨機猜測的基準線是16.67%(因為有六個選項),而大量模型的得分在16%到25%之間,有些甚至比隨機猜測還差。這說明這些模型不僅沒有學會如何做這類題,它們的"猜測方式"甚至是反向的——某種意義上說,它們學到了錯誤的偏見。
關係類任務的表現稍微好一些,但也沒有哪個模型突破了35%的正確率。動態結構對應任務——需要追蹤圖形變換規律並預測下一幀——對於模型來說格外困難,因為它需要理解圖形隨時間的動態變化,而不僅僅是比較靜止的畫面。
一個細節格外值得關註:在模型規模和性能的關係上,更大的模型確實通常比更小的模型表現好,但這種改善是不均勻的。一些中等規模的模型(比如InternVL3-8B和LLaMA-3.2-11B)在某些任務上的表現居然與遠大於它們的模型相當甚至更好。這說明單純把模型做大並不能從根本上解決這類視覺推理問題,可能需要在訓練方式和架構設計上進行更本質的改變。
四、 為什麼AI在這件事上這麼差勁:深入挖掘失敗原因
測試結果只是表面現象,研究團隊隨後深入分析了AI失敗的內在機制,挖出了三個層次的根本原因。
第一個原因是"眼睛看到了,但腦子沒轉起來"。研究團隊做了一項精細的注意力分析,追蹤模型在生成答案時的"視覺注意力"分布——也就是模型在"看"圖片時,它的注意力集中在哪些區域。結果發現,注意力的集中程度和答對與否確實存在正相關,但這種關聯並不牢固。在注意力最集中的那組題目中,模型的正確率依然遠低於人類水平,遠低於80%。更有意思的是,當模型答對時,它的注意力明顯更集中在正確答案的圖形區域;但當它答錯時,它對被選的錯誤選項和正確選項的注意力分配幾乎沒有區別。這說明模型"看到了"正確的地方,但不知道該如何利用它看到的資訊做出正確的推理——就好像一個人雖然盯著棋盤看,但並不真正理解棋局的走向。
第二個原因是"難度對AI毫無意義"。這是整個研究中最令人震驚的發現之一。對於人類來說,簡單題和困難題之間存在巨大差距:人類在簡單題上能答對85%到95%,但困難題的正確率會跌到10%到25%。這種隨難度升高而系統性下降的曲線,恰恰說明人類真的在"思考"這些題目,而且思考量隨難度增加而增加。然而AI模型的表現曲線幾乎是一條水平線——簡單題和困難題的正確率相差無幾,通常只在2%到8%之間波動,有時候甚至在某些困難題上表現比簡單題還好。這種"難度無感"的現象說明AI並不是"難題做不好、簡單題做得好",而是根本沒有執行解這類題所需要的基本認知操作,無論題目難不難,它都在做同樣層次的、不充分的處理。
第三個原因是"嘴上說的和腦子想的不一樣"。研究團隊詳細分析了模型的推理過程文本,發現了一種被稱為"誤綁定"的現象。以心理轉變任務(識別正確旋轉結果)為例,在Qwen-7B模型產生錯誤答案的案例中,有高達61.1%的情況是這樣的:模型在推理文本中正確描述了應該如何旋轉這個三維形狀,但最終選出來的答案卻是錯誤的。換句話說,模型的"語言推理過程"和它的"視覺判斷結果"出現了斷裂,兩者互不搭理。模型可以流利地說出正確的旋轉邏輯,但這段文字描述沒有真正驅動它去正確地識別視覺圖像。這就好像一個人能夠口頭描述"向左轉再向右轉"的操作步驟,但當真正需要在腦海中執行這個操作並與圖片對照時,卻完全失敗了。
研究團隊還注意到另一類有趣的失敗:模型有時會把題目里的抽象幾何圖形強行套用到現實世界的知識上。比如在對稱結構任務中,模型把一些由線條構成的對稱圖形解釋成了"分子鏈結構",並開始用化學知識分析它們,而不是從幾何對稱性的角度來思考。這種"領域知識干擾"恰恰印證了研究團隊最初的擔憂:AI很難像人類一樣從視覺圖形的純幾何屬性出發進行推理,它總是傾向於把視覺輸入"翻譯"成它在文字訓練中見過的某種已知概念。
五、 給模型換換"提示詞"能救它嗎
既然發現了這些問題,研究團隊自然也嘗試了各種"救治方案",其中最直接的一類就是調整給模型的指令方式,看看換個提問角度能不能激發出模型更好的表現。
團隊測試了四種不同的提示策略。第一種是"思維鏈"提示,要求模型在給出答案前先一步步寫出推理過程。第二種是"元任務框架"提示,在問題前明確告訴模型這是一道什麼類型的認知測試,比如"這是一道心理旋轉題,你需要想像把這個三維形狀在空間中轉動"。第三種是"逐步分解"提示,給出明確的步驟指引,比如"先描述每個圖形,然後識別變換操作,最後排除不可能的選項"。第四種是"提示線索"提示,在問題中嵌入視覺屬性的提示詞,引導模型關注特定特徵。
結果顯示,這些提示策略的效果非常不均勻,而且關鍵在於題目類型,而不是說哪種策略普遍有效。在抽象類任務上,元任務框架和逐步分解提示確實帶來了大約1.3個百分點的提升,說明當題目本質上是"歸納規律"時,給模型一個明確的框架能幫助它更有條理地推導。然而在轉變類任務上——也就是需要在腦海中摺疊、旋轉的那些題目——幾乎所有替代提示策略都導致了性能下降,其中"提示線索"策略導致了約0.9個百分點的退步。這意味著對於真正需要內部模擬視覺操作的題目,任何外部的語言框架都幫不上忙,甚至會起反作用,因為這類任務根本上需要的是執行一個"動作",而不是遵循一個"規則"。
研究團隊還嘗試了更系統化的提示詞優化方法,利用一套自動疊代改進提示詞的框架,為模型生成了若干優化版提示。結果令人清醒:最好的優化提示版本相比基礎版最多帶來了不到10%的絕對提升,而且核心錯誤模式完全沒有改變。這證明模型的失敗不是因為"沒有被好好引導",而是因為缺乏執行這些視覺認知操作的底層能力。
六、 這項研究放在整個領域裡意味著什麼
在這項研究出現之前,學界已經有不少針對AI視覺推理的評測工具。比如RAVEN數據集測試矩陣式的規律歸納,Bongard-LOGO測試概念歸納能力,CLEVR測試空間關係問答,還有VisFactor直接把心理學標準認知測試數字化。但研究團隊指出,這些工具都有不同程度的局限。
Mind's Eye與這些前輩測試的核心區別在於它同時滿足了六個條件,而據研究團隊所知,沒有其他評測工具能同時做到這六點。第一,它有形式化的心理測量分類體系,基於認知科學理論(具體來說是Carroll的流體智力理論)明確定義了測試涵蓋的認知構件。第二,測試任務來源於已驗證的心理測量學經典測試,包括Vandenberg & Kuse心理旋轉測試和CogAT紙摺疊測試。第三,干擾項是根據特定認知錯誤類型定製設計的,而非隨機選取,這使得錯誤分析有了更精細的粒度。第四,整個測試不依賴任何領域知識,從根本上堵住了語言捷徑。第五,所有題目通過參數化程序生成,可以精確控制難度,也可以幾乎零成本地擴展出更多題目。第六,測試包含了人類基線數據,提供了真正有意義的比較參照。
另外值得一提的是,這套測試的題目全部用可縮放向量圖形格式程序化生成,這確保了純幾何精確性,同時也意味著測試規模可以隨需求增長——目前研究團隊已經準備好了每種任務2500道題、共2萬道題的擴展版本,專門用於模型訓練研究。
研究團隊還特別警告了一類解讀風險,值得單獨提及。由於這套測試的靈感來自人類認知測試,很容易讓人產生一種想法:當模型答對了某道題,就說明它"真正理解了空間關係"或"具備了類似人類的心理旋轉能力"。研究團隊明確反對這種擬人化解讀,他們強調應該把模型的輸出理解為在受控刺激下的行為表現特徵,而不是內在認知機制的證明。模型可能通過完全不同於人類的途徑偶然答對,同樣,答錯也不代表它在某種意義上"理解了什麼但做不到"。
說到底,這項研究最核心的發現可以用一句話來概括:當前的AI在視覺認知上表現出的弱點不是"難題做不好",而是在最基礎的"腦內視覺操作"層面就根本沒能運轉起來。無論題目簡單還是困難,無論給它什麼樣的提示,模型的表現都維持在一個低得讓人尷尬的平台上,而人類的表現則隨著題目難度有條不紊地起伏變化。
這意味著,如果未來的AI要真正擁有工程師或外科醫生那種"在腦子裡操作形狀"的能力,光靠現有的訓練範式和更大的參數規模恐怕是不夠的。研究團隊認為,這可能需要在模型架構層面引入專門處理空間工作記憶和視覺變換操作的機制,也可能需要重新思考如何讓模型真正"執行"視覺操作,而不僅僅是"描述"視覺操作。當前AI的視覺能力還更像是一個博聞強記的鑑賞家,能認出各種已見過的視覺模式,但還不像一個工程師,能在頭腦中自由地搭建和拆解形狀。這個差距在Mind's Eye面前暴露得清清楚楚。
有興趣深入探索這項研究的讀者,可以通過論文編號arXiv:2604.16054查閱完整原文,研究團隊也已在GitHub上開放了基準測試的代碼和數據集。
Q&A
Q1:Mind's Eye基準測試和其他AI視覺測試有什麼本質區別?
A:Mind's Eye的核心區別在於它測的不是"認出圖形",而是"在腦海中操作圖形"——比如摺疊、旋轉、找規律。它同時滿足六個條件:有理論化的認知分類框架、題目來源於經典心理測量工具、干擾選項是專門針對特定認知錯誤設計的、完全不依賴領域知識、可以程序化精確控制難度、並且包含人類基線數據。這六點同時滿足,在現有評測工具中是唯一的。
Q2:為什麼更換提示詞策略沒法提升AI在視覺空間推理上的表現?
A:研究發現,對於需要真正"腦內模擬"視覺操作的任務,換提示詞不僅沒有幫助,有時反而讓結果更差。原因在於這類任務根本上要求的是執行一個動作(在腦海中旋轉、摺疊),而不是遵循一套語言規則。AI缺乏的是底層的視覺操作執行能力,而提示詞只能改變它思考問題的框架,無法補充它根本不具備的能力。
Q3:AI在視覺空間推理上失敗的最根本原因是什麼?
A:研究揭示了三層原因。首先,模型會"看"到正確的圖形區域,但不知道如何利用這些視覺資訊做推理。其次,AI的表現完全不隨題目難度變化——簡單題和困難題的正確率幾乎相同,說明它根本沒有在真正"思考"這些題目。最關鍵的是一種叫"誤綁定"的現象:模型的語言推理過程和視覺判斷結果互不搭理,它能說出正確的操作步驟,但這段話根本沒驅動它在視覺層面做出正確判斷。






