這項由北卡羅來納大學教堂山分校與谷歌研究院聯合開展的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.30557。研究圍繞視覺語言模型(簡稱VLM,可以理解為能"看圖說話"的AI系統)在空間推理任務中的一個關鍵盲區展開:當AI所看到的畫面不足以支撐判斷時,它究竟會如何應對?
這個問題乍一聽似乎有些學術,但放到現實場景里,你會立刻感受到它的重量。假設一輛自動駕駛汽車的攝影機被一棵大樹遮住了行人,或者一台負責倉庫分揀的機器人因為角度問題,把兩個尺寸不同的包裹看成了一樣大——如果這些AI系統不知道自己"看不清楚",仍然信心滿滿地給出答案,後果可能相當嚴重。北卡羅來納大學的研究團隊正是針對這一問題,構建了一套名為SPATIALUNCERTAIN的測試框架,系統地檢驗當前最先進的AI模型在"不確定時是否懂得說不知道"這件事上,表現究竟如何。
---
一、當AI像個永遠不說"我不知道"的人
日常生活中,我們都見過這樣的人:無論被問什麼問題,他們總能滔滔不絕地給出答案,哪怕心裡完全沒有把握。這種行為在人際交往中頂多令人煩躁,但如果是負責操控機器人手臂、規劃導航路線或識別醫學圖像的AI系統表現出同樣的行為,麻煩就大了。
研究團隊想要測試的,正是當前一批頂尖AI系統是否會犯這個毛病。他們選取了八款來自開源和商業領域的視覺語言模型進行測試,包括商業巨頭推出的GPT-4o、GPT-5-mini、GPT-5.4、Gemini-2.5-Flash、Gemini-3.0-Flash,以及開源社區中性能領先的Qwen2.5-VL-7B、Qwen2.5-VL-32B和InternVL3-8B。這些模型代表了目前業界能用到的最高水平。
測試的核心思路可以用一個簡單的比喻來理解。假設你正在通過一扇磨砂玻璃窗觀察隔壁房間,有人問你"那張椅子和桌子,哪個更靠近窗戶?"如果玻璃是透明的,你當然能看清楚;但如果玻璃嚴重模糊,或者視角偏了導致你看到的畫面產生了透視扭曲,那么正確的回答應該是"我看不清楚",而不是隨便猜一個。研究團隊想知道的就是:這些AI系統,在類似情況下,會不會給出"我看不清楚"這個誠實的答案?
---
二、構建"障眼法"測試場——SPATIALUNCERTAIN是怎麼工作的
為了科學地測試這個問題,研究團隊沒有直接拿現實世界的模糊照片去考驗AI,因為那樣太難控制變量。他們的做法更像是一個精密的實驗室實驗:先用一套叫做Holodeck的系統,自動生成240個虛擬的三維室內場景,涵蓋臥室、廚房、博物館、美容院等43種不同類型的房間,再通過另一個叫做AI2-THOR的虛擬渲染引擎,從各種角度為這些場景拍攝照片。
這樣做的好處是,研究人員可以精確控制每一個變量。同一個房間,同一批家具,只改變攝像機的位置,或者往場景里加一個遮擋物——這樣產生的問題,就能明確歸因於觀察條件的變化,而不是場景內容的差異。
研究團隊在這個框架中設計了兩類"障眼法"。第一類叫做遮擋,顧名思義,就是在攝像機和目標物體之間插入另一個物體,把目標遮住一部分或者全部。比如,一台冰箱被一個儲物櫃擋住了大半,這時候再問AI"冰箱在桌子的左邊還是右邊",AI根本無從判斷,正確答案應該是"無法確定"。第二類叫做透視歧義,原理稍微複雜一些。當我們從一個偏向某側的角度看兩個相同尺寸的物體時,靠近攝像機的那個會顯得更大——這是正常的透視效果,但它會讓AI產生誤判,以為兩個物體大小不同。在這種情況下,如果問AI"這兩幅畫一樣大嗎",AI憑視覺看到的資訊實際上是誤導性的,正確做法同樣是回答"無法確定"。
整個數據集共包含10322道問答題:其中6608道來自遮擋場景,3714道來自透視歧義場景,涵蓋四種空間推理問題類型——物體是否可見、相對位置關係、遠近深度排序,以及大小和形狀比較。所有場景在正式使用前還經過了7位人工標註員的仔細審核,確保遮擋場景確實構成了有效遮擋,透視場景確實產生了視覺誤導。
---
三、AI的測試成績單:看得見不等於判斷准
測試結果相當清晰地揭示了兩個系統性的問題。
先說遮擋場景。在那些目標物體清晰可見、沒有任何遮擋的"乾淨"觀察條件下,各模型的表現普遍不錯,能夠正確回答空間問題。但一旦目標物體被完全遮住,問AI那些理應回答"無法確定"的問題,情況就急轉直下。以"無法確定"這個選項的正確率來衡量,各模型的平均得分大約在30%左右——而隨機猜測的得分預期約為23%。換句話說,很多模型在面對明顯遮擋的情況時,仍然會自信地給出一個具體答案,而不是承認自己看不清楚。
InternVL3-8B在可回答問題上得分最高(61.7%),但遮擋情況下的"無法確定"正確率僅有7.3%,幾乎和隨機猜測沒有差別。這就好比一個考生,做會做的題答得很好,但遇到不會的題不知道空著,反而亂填一通。Gemini-2.5-Flash在遮擋識別上表現相對最好,達到45%,但其可回答準確率只有56.1%,低於其他幾個模型——也就是說,它更傾向於保守地說"不知道",但因此也錯過了一些本可以正確回答的題目。
透視歧義場景的結果更令人憂慮。在那些因為視角偏斜導致視覺資訊具有誤導性的問題上,正確識別"這個問題無法從當前視角可靠作答"的準確率,多數模型只有個位數——Gemini-2.5-Flash甚至只有2.4%,InternVL3-8B僅有1.1%。這意味著,當畫面呈現的視覺資訊本身是錯誤的引導時,模型幾乎無一例外地被"帶偏"了,跟著錯誤的視覺線索給出了自信但錯誤的答案。
這兩類問題揭示出一個共同的癥結:這些AI系統缺乏對自身觀察質量的評估能力。它們能處理視覺資訊,但不能判斷這些視覺資訊是否足夠可靠。就像一個人能看地圖,但不知道這張地圖是否已經過時。
---
四、更進一步的考驗:AI能不能找到一個"更好的觀察角度"?
研究團隊還設計了一個更有趣的測試維度。現實中,當一個人意識到自己的觀察角度有問題時,自然的反應是換個角度再看看。那麼AI能做到這一點嗎?
為此,研究團隊設計了兩個關聯任務。第一個叫"視角選擇":直接給AI展示五張候選照片(其中一張是從理想角度拍攝的參考視圖,另外四張都是有偏差的角度),讓AI選出哪張最適合用來判斷兩個物體的實際大小。第二個叫"先放棄再選視角":先只給AI看那張有問題的偏斜照片,讓它回答關於大小的問題——如果AI足夠聰明,它應該先回答"無法確定";然後再展示那五張候選照片,讓AI選出哪張能幫助回答這個問題。只有兩步都答對,才算全對。
在第一個純粹的視角選擇測試中,GPT-5.4的表現令人印象深刻,正確率達到70.9%;GPT-5-mini也有53.7%。這說明,當被明確告知"請選一個好角度"時,較強的模型確實能理解什麼樣的視角更有參考價值。
然而,一旦加上"先判斷當前視角是否可靠"這一前置步驟,各模型的表現急劇下滑。GPT-5.4從70.9%跌至22.6%,GPT-5-mini從53.7%跌至18.0%,Gemini-3.0-Flash從50.3%跌至僅2.4%。這個斷崖式的下滑說明,模型的瓶頸不在於"知道什麼角度好",而在於"意識到當前角度有問題"。它們在第一步就失敗了——沒能識別出當前視角的局限性,因此根本不會觸發"去找更好角度"的行為。
這個發現有著很強的實踐意涵。在真實的機器人或自動駕駛場景中,系統不可能每次都被明確告知"你現在的視角有問題,請換一個"。它必須能夠自主判斷當前觀察是否可靠,然後主動尋求更好的資訊來源。而目前的測試結果表明,這種主動的觀察質量評估能力,在現有模型中幾乎付之闕如。
---
五、畫面的雙刃劍:有時候"看見"反而是一種干擾
研究團隊還做了一個對比實驗,專門探討視覺資訊本身對模型判斷的影響。他們把每道題分成兩種條件來測試:一種是只給文字提示(比如"場景中有一個冰箱和一個桌子,冰箱在桌子的左邊"),另一種是文字加圖片。
結果呈現出一個有趣的不對稱性。在遮擋場景中,加入圖片資訊對模型整體有所幫助——既能提高可回答問題的準確率,也能幫助模型更好地識別遮擋情況。比如,Gemini-3.0-Flash在加入圖片後,遮擋識別正確率從14.3%提升到44.1%,提升了近30個百分點。
但在透視歧義場景中,情況正好相反。加入圖片後,模型識別"這道題無法從當前視角可靠作答"的正確率,反而大幅下降。GPT-5.4在這一指標上從44.3%跌至22.6%,下降了近22個百分點;Gemini-3.0-Flash從42.1%跌至6.3%,下滑超過35個百分點。這意味著,那些具有誤導性的視覺畫面,非但沒有幫助模型判斷,反而強化了它們的錯誤信心,壓制了它們本來可能存在的一點懷疑傾向。
這個發現頗為反直覺。通常我們會認為,"有圖有真相",加入視覺資訊總是更好。但研究告訴我們,如果視覺資訊本身包含了系統性的誤導(比如透視扭曲),它就像一條錯誤的線索,會讓AI偵探自信地走向錯誤的結論。真正可靠的系統,應該能區分"我看到了什麼"和"我看到的這些是否可以信賴"——而這正是當前模型的薄弱環節。
---
六、能不能修好這個缺陷?提示詞調教與微調訓練的效果對比
面對這兩個系統性缺陷,研究團隊嘗試了兩種補救思路:一種是調整提示詞(也就是改變給AI的"指令說明"),另一種是直接用相關數據重新訓練模型。
先說提示詞調教的效果。研究團隊設計了兩種提示詞。"標準提示詞"直接告訴AI根據視覺證據選出最佳答案,允許選"無法確定"但不特別強調。"結構化推理提示詞"則要求AI在回答前先完成兩個檢查:目標物體是否清晰可見?當前視角是否可靠?只有兩項都滿足,才繼續給出具體答案,否則就選"無法確定"。
使用結構化提示詞後,GPT-5-mini在遮擋場景中識別"無法確定"的正確率從7.8%大幅提升至30.4%,看起來相當可觀。但代價是,它在可回答問題上的正確率從64.7%降到了54.7%,相當於撿了芝麻丟了西瓜。Gemini-2.5-Flash的改善幅度則非常有限,"無法確定"識別率僅從45.0%微升至48.7%,而可回答準確率同樣有所下滑。這說明僅靠修改指令,無法從根本上解決問題——它更像是給AI戴上了一副"多疑的眼鏡",讓它更傾向於說不知道,但並沒有真正提升它對觀察可靠性的判斷能力。
再說微調訓練。研究團隊用LoRA這種輕量級的微調方法,在Qwen2.5-VL-7B模型上進行了實驗,訓練出三個變體。第一個只用遮擋場景數據訓練,第二個只用透視歧義數據訓練,第三個將兩類數據混合訓練。
結果很清晰。只用遮擋數據訓練的模型,在遮擋場景的"無法確定"正確率(39.3%)甚至略低於基礎模型(41.0%),而且完全不能提升透視場景的表現。只用透視數據訓練的模型,在透視場景上大幅提升("無法確定"正確率從42.9%躍升至86.8%),但遮擋場景的識別能力反而從41.0%暴跌至7.7%——產生了明顯的負遷移效應。只有混合訓練的模型,同時在遮擋和透視兩個維度上都取得了顯著改善,遮擋可回答準確率提升至70.3%、"無法確定"正確率達到62.8%,透視可回答準確率88.8%、"無法確定"正確率76.9%,並且解決了提示詞調教中出現的回答準確率下滑問題。
這說明,"知道自己不知道"這種能力是可以通過訓練習得的,但訓練數據必須足夠多樣,覆蓋不同類型的不確定性情境。只見識過一種"看不清楚"的情況,不足以培養出真正通用的觀察可靠性評估能力。
---
七、這項研究告訴我們什麼,又還沒有解決什麼
說到底,這項研究做了一件很有價值的事:它用一套嚴格的、可復現的測試框架,揭示出當前AI視覺系統中一個普遍存在但此前缺乏系統評估的盲區。在人們熱衷於測試AI能不能答對更多問題的同時,研究團隊轉換了視角——他們問的是:AI在應該說"我不知道"的時候,究竟有多少次說了"我知道"?
答案令人警醒。在遮擋場景中,各模型平均大約有70%的錯誤機會(本該說不知道卻給出了具體答案);在透視歧義場景中,這一比例更高,接近90%甚至更多。這些數字背後,是現實世界中潛在的安全隱患——尤其在機器人操作、自動駕駛、醫療輔助決策等高風險領域。
當然,這項研究本身也存在一定局限。測試使用的是虛擬三維環境生成的合成圖像,雖然有很好的控制性,但與真實世界的複雜性仍有差距。遮擋和透視歧義只是觀察可靠性的兩種典型情形,現實中還有光線不足、運動模糊、傳感器噪聲等更多干擾因素,這些都有待未來研究繼續探索。此外,目前的測試框架聚焦於單次靜態的空間判斷,而真實的機器人任務往往需要連續的多步決策——如何將觀察可靠性評估延伸到這類長時序場景,同樣是一個開放的研究方向。
混合訓練的結果已經給出了一個積極的信號:這種能力是可以習得的,而且一旦習得,不必以損失回答準確率為代價。這意味著,未來構建更安全、更可靠的AI視覺系統,是完全可期的目標——前提是訓練數據的設計要更全面地覆蓋各種"不確定"情境,而不是只考察模型會不會答題,還要考察它知不知道什麼時候不該答。
有興趣深入了解這項研究的讀者,可以通過論文編號arXiv:2605.30557查閱完整原文。
---
Q&A
Q1:SPATIALUNCERTAIN測試框架是用真實照片測試的嗎?
A:不是。SPATIALUNCERTAIN使用的是虛擬三維室內場景生成的合成圖像,通過Holodeck系統自動生成場景布局,再用AI2-THOR渲染引擎從不同角度拍攝。這樣設計的好處是可以精確控制遮擋程度和攝像機角度,確保測試結果能準確歸因於觀察條件的變化,而非場景內容的差異。研究者也指出,這種合成環境可能無法完全覆蓋真實世界的複雜性,是該研究的一個局限。
Q2:為什麼視覺資訊在透視歧義場景中反而會讓AI表現更差?
A:因為那些存在透視扭曲的圖像本身包含了系統性的視覺誤導——靠近攝像機的物體看起來更大,這是正常的透視效果,但它使兩個實際相同大小的物體看起來不一樣。AI會根據這些視覺資訊給出自信的答案,卻不會意識到這個視角本身是有問題的。加入圖片後,錯誤的視覺線索反而壓制了模型可能存在的不確定性傾向,導致識別"無法確定"的正確率大幅下滑,比純文字輸入時還要低。
Q3:混合訓練為什麼比單獨訓練某類場景效果更好?
A:單獨用遮擋數據或透視數據訓練時,模型只學會了識別某一種"看不清楚"的模式,遇到另一類情境時不僅無法遷移,甚至會產生負面干擾。而混合訓練讓模型同時接觸兩種不同性質的不確定性——一種是資訊缺失(遮擋),一種是資訊誤導(透視歧義)——這促使模型學習到更通用的"評估觀察是否可靠"的能力,而不是只記住某種特定的表面特徵。這種多樣性訓練最終在兩類場景上都取得了顯著改善,且不以損失回答準確率為代價。






