AI機器人「看見」不等於「知道」：北卡羅來納大學團隊揭示視覺AI在空間判斷上的致命盲區

這項由北卡羅來納大學教堂山分校與谷歌研究院聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.30557。研究圍繞視覺語言模型（簡稱VLM，可以理解為能"看圖說話"的AI系統）在空間推理任務中的一個關鍵盲區展開：當AI所看到的畫面不足以支撐判斷時，它究竟會如何應對？

贊助商廣告

這個問題乍一聽似乎有些學術，但放到現實場景里，你會立刻感受到它的重量。假設一輛自動駕駛汽車的攝影機被一棵大樹遮住了行人，或者一台負責倉庫分揀的機器人因為角度問題，把兩個尺寸不同的包裹看成了一樣大——如果這些AI系統不知道自己"看不清楚"，仍然信心滿滿地給出答案，後果可能相當嚴重。北卡羅來納大學的研究團隊正是針對這一問題，構建了一套名為SPATIALUNCERTAIN的測試框架，系統地檢驗當前最先進的AI模型在"不確定時是否懂得說不知道"這件事上，表現究竟如何。

---

一、當AI像個永遠不說"我不知道"的人

日常生活中，我們都見過這樣的人：無論被問什麼問題，他們總能滔滔不絕地給出答案，哪怕心裡完全沒有把握。這種行為在人際交往中頂多令人煩躁，但如果是負責操控機器人手臂、規劃導航路線或識別醫學圖像的AI系統表現出同樣的行為，麻煩就大了。

研究團隊想要測試的，正是當前一批頂尖AI系統是否會犯這個毛病。他們選取了八款來自開源和商業領域的視覺語言模型進行測試，包括商業巨頭推出的GPT-4o、GPT-5-mini、GPT-5.4、Gemini-2.5-Flash、Gemini-3.0-Flash，以及開源社區中性能領先的Qwen2.5-VL-7B、Qwen2.5-VL-32B和InternVL3-8B。這些模型代表了目前業界能用到的最高水平。

測試的核心思路可以用一個簡單的比喻來理解。假設你正在通過一扇磨砂玻璃窗觀察隔壁房間，有人問你"那張椅子和桌子，哪個更靠近窗戶？"如果玻璃是透明的，你當然能看清楚；但如果玻璃嚴重模糊，或者視角偏了導致你看到的畫面產生了透視扭曲，那么正確的回答應該是"我看不清楚"，而不是隨便猜一個。研究團隊想知道的就是：這些AI系統，在類似情況下，會不會給出"我看不清楚"這個誠實的答案？

贊助商廣告

---

二、構建"障眼法"測試場——SPATIALUNCERTAIN是怎麼工作的

為了科學地測試這個問題，研究團隊沒有直接拿現實世界的模糊照片去考驗AI，因為那樣太難控制變量。他們的做法更像是一個精密的實驗室實驗：先用一套叫做Holodeck的系統，自動生成240個虛擬的三維室內場景，涵蓋臥室、廚房、博物館、美容院等43種不同類型的房間，再通過另一個叫做AI2-THOR的虛擬渲染引擎，從各種角度為這些場景拍攝照片。

這樣做的好處是，研究人員可以精確控制每一個變量。同一個房間，同一批家具，只改變攝像機的位置，或者往場景里加一個遮擋物——這樣產生的問題，就能明確歸因於觀察條件的變化，而不是場景內容的差異。

研究團隊在這個框架中設計了兩類"障眼法"。第一類叫做遮擋，顧名思義，就是在攝像機和目標物體之間插入另一個物體，把目標遮住一部分或者全部。比如，一台冰箱被一個儲物櫃擋住了大半，這時候再問AI"冰箱在桌子的左邊還是右邊"，AI根本無從判斷，正確答案應該是"無法確定"。第二類叫做透視歧義，原理稍微複雜一些。當我們從一個偏向某側的角度看兩個相同尺寸的物體時，靠近攝像機的那個會顯得更大——這是正常的透視效果，但它會讓AI產生誤判，以為兩個物體大小不同。在這種情況下，如果問AI"這兩幅畫一樣大嗎"，AI憑視覺看到的資訊實際上是誤導性的，正確做法同樣是回答"無法確定"。

整個數據集共包含10322道問答題：其中6608道來自遮擋場景，3714道來自透視歧義場景，涵蓋四種空間推理問題類型——物體是否可見、相對位置關係、遠近深度排序，以及大小和形狀比較。所有場景在正式使用前還經過了7位人工標註員的仔細審核，確保遮擋場景確實構成了有效遮擋，透視場景確實產生了視覺誤導。

---

三、AI的測試成績單：看得見不等於判斷准

測試結果相當清晰地揭示了兩個系統性的問題。

贊助商廣告

先說遮擋場景。在那些目標物體清晰可見、沒有任何遮擋的"乾淨"觀察條件下，各模型的表現普遍不錯，能夠正確回答空間問題。但一旦目標物體被完全遮住，問AI那些理應回答"無法確定"的問題，情況就急轉直下。以"無法確定"這個選項的正確率來衡量，各模型的平均得分大約在30%左右——而隨機猜測的得分預期約為23%。換句話說，很多模型在面對明顯遮擋的情況時，仍然會自信地給出一個具體答案，而不是承認自己看不清楚。

InternVL3-8B在可回答問題上得分最高（61.7%），但遮擋情況下的"無法確定"正確率僅有7.3%，幾乎和隨機猜測沒有差別。這就好比一個考生，做會做的題答得很好，但遇到不會的題不知道空著，反而亂填一通。Gemini-2.5-Flash在遮擋識別上表現相對最好，達到45%，但其可回答準確率只有56.1%，低於其他幾個模型——也就是說，它更傾向於保守地說"不知道"，但因此也錯過了一些本可以正確回答的題目。

透視歧義場景的結果更令人憂慮。在那些因為視角偏斜導致視覺資訊具有誤導性的問題上，正確識別"這個問題無法從當前視角可靠作答"的準確率，多數模型只有個位數——Gemini-2.5-Flash甚至只有2.4%，InternVL3-8B僅有1.1%。這意味著，當畫面呈現的視覺資訊本身是錯誤的引導時，模型幾乎無一例外地被"帶偏"了，跟著錯誤的視覺線索給出了自信但錯誤的答案。

這兩類問題揭示出一個共同的癥結：這些AI系統缺乏對自身觀察質量的評估能力。它們能處理視覺資訊，但不能判斷這些視覺資訊是否足夠可靠。就像一個人能看地圖，但不知道這張地圖是否已經過時。

---

四、更進一步的考驗：AI能不能找到一個"更好的觀察角度"？

研究團隊還設計了一個更有趣的測試維度。現實中，當一個人意識到自己的觀察角度有問題時，自然的反應是換個角度再看看。那麼AI能做到這一點嗎？

贊助商廣告

為此，研究團隊設計了兩個關聯任務。第一個叫"視角選擇"：直接給AI展示五張候選照片（其中一張是從理想角度拍攝的參考視圖，另外四張都是有偏差的角度），讓AI選出哪張最適合用來判斷兩個物體的實際大小。第二個叫"先放棄再選視角"：先只給AI看那張有問題的偏斜照片，讓它回答關於大小的問題——如果AI足夠聰明，它應該先回答"無法確定"；然後再展示那五張候選照片，讓AI選出哪張能幫助回答這個問題。只有兩步都答對，才算全對。

在第一個純粹的視角選擇測試中，GPT-5.4的表現令人印象深刻，正確率達到70.9%；GPT-5-mini也有53.7%。這說明，當被明確告知"請選一個好角度"時，較強的模型確實能理解什麼樣的視角更有參考價值。

然而，一旦加上"先判斷當前視角是否可靠"這一前置步驟，各模型的表現急劇下滑。GPT-5.4從70.9%跌至22.6%，GPT-5-mini從53.7%跌至18.0%，Gemini-3.0-Flash從50.3%跌至僅2.4%。這個斷崖式的下滑說明，模型的瓶頸不在於"知道什麼角度好"，而在於"意識到當前角度有問題"。它們在第一步就失敗了——沒能識別出當前視角的局限性，因此根本不會觸發"去找更好角度"的行為。

這個發現有著很強的實踐意涵。在真實的機器人或自動駕駛場景中，系統不可能每次都被明確告知"你現在的視角有問題，請換一個"。它必須能夠自主判斷當前觀察是否可靠，然後主動尋求更好的資訊來源。而目前的測試結果表明，這種主動的觀察質量評估能力，在現有模型中幾乎付之闕如。

---

五、畫面的雙刃劍：有時候"看見"反而是一種干擾

研究團隊還做了一個對比實驗，專門探討視覺資訊本身對模型判斷的影響。他們把每道題分成兩種條件來測試：一種是只給文字提示（比如"場景中有一個冰箱和一個桌子，冰箱在桌子的左邊"），另一種是文字加圖片。

結果呈現出一個有趣的不對稱性。在遮擋場景中，加入圖片資訊對模型整體有所幫助——既能提高可回答問題的準確率，也能幫助模型更好地識別遮擋情況。比如，Gemini-3.0-Flash在加入圖片後，遮擋識別正確率從14.3%提升到44.1%，提升了近30個百分點。

贊助商廣告

但在透視歧義場景中，情況正好相反。加入圖片後，模型識別"這道題無法從當前視角可靠作答"的正確率，反而大幅下降。GPT-5.4在這一指標上從44.3%跌至22.6%，下降了近22個百分點；Gemini-3.0-Flash從42.1%跌至6.3%，下滑超過35個百分點。這意味著，那些具有誤導性的視覺畫面，非但沒有幫助模型判斷，反而強化了它們的錯誤信心，壓制了它們本來可能存在的一點懷疑傾向。

這個發現頗為反直覺。通常我們會認為，"有圖有真相"，加入視覺資訊總是更好。但研究告訴我們，如果視覺資訊本身包含了系統性的誤導（比如透視扭曲），它就像一條錯誤的線索，會讓AI偵探自信地走向錯誤的結論。真正可靠的系統，應該能區分"我看到了什麼"和"我看到的這些是否可以信賴"——而這正是當前模型的薄弱環節。

---

六、能不能修好這個缺陷？提示詞調教與微調訓練的效果對比

面對這兩個系統性缺陷，研究團隊嘗試了兩種補救思路：一種是調整提示詞（也就是改變給AI的"指令說明"），另一種是直接用相關數據重新訓練模型。

先說提示詞調教的效果。研究團隊設計了兩種提示詞。"標準提示詞"直接告訴AI根據視覺證據選出最佳答案，允許選"無法確定"但不特別強調。"結構化推理提示詞"則要求AI在回答前先完成兩個檢查：目標物體是否清晰可見？當前視角是否可靠？只有兩項都滿足，才繼續給出具體答案，否則就選"無法確定"。

使用結構化提示詞後，GPT-5-mini在遮擋場景中識別"無法確定"的正確率從7.8%大幅提升至30.4%，看起來相當可觀。但代價是，它在可回答問題上的正確率從64.7%降到了54.7%，相當於撿了芝麻丟了西瓜。Gemini-2.5-Flash的改善幅度則非常有限，"無法確定"識別率僅從45.0%微升至48.7%，而可回答準確率同樣有所下滑。這說明僅靠修改指令，無法從根本上解決問題——它更像是給AI戴上了一副"多疑的眼鏡"，讓它更傾向於說不知道，但並沒有真正提升它對觀察可靠性的判斷能力。

贊助商廣告

再說微調訓練。研究團隊用LoRA這種輕量級的微調方法，在Qwen2.5-VL-7B模型上進行了實驗，訓練出三個變體。第一個只用遮擋場景數據訓練，第二個只用透視歧義數據訓練，第三個將兩類數據混合訓練。

結果很清晰。只用遮擋數據訓練的模型，在遮擋場景的"無法確定"正確率（39.3%）甚至略低於基礎模型（41.0%），而且完全不能提升透視場景的表現。只用透視數據訓練的模型，在透視場景上大幅提升（"無法確定"正確率從42.9%躍升至86.8%），但遮擋場景的識別能力反而從41.0%暴跌至7.7%——產生了明顯的負遷移效應。只有混合訓練的模型，同時在遮擋和透視兩個維度上都取得了顯著改善，遮擋可回答準確率提升至70.3%、"無法確定"正確率達到62.8%，透視可回答準確率88.8%、"無法確定"正確率76.9%，並且解決了提示詞調教中出現的回答準確率下滑問題。

這說明，"知道自己不知道"這種能力是可以通過訓練習得的，但訓練數據必須足夠多樣，覆蓋不同類型的不確定性情境。只見識過一種"看不清楚"的情況，不足以培養出真正通用的觀察可靠性評估能力。

---

七、這項研究告訴我們什麼，又還沒有解決什麼

說到底，這項研究做了一件很有價值的事：它用一套嚴格的、可復現的測試框架，揭示出當前AI視覺系統中一個普遍存在但此前缺乏系統評估的盲區。在人們熱衷於測試AI能不能答對更多問題的同時，研究團隊轉換了視角——他們問的是：AI在應該說"我不知道"的時候，究竟有多少次說了"我知道"？

答案令人警醒。在遮擋場景中，各模型平均大約有70%的錯誤機會（本該說不知道卻給出了具體答案）；在透視歧義場景中，這一比例更高，接近90%甚至更多。這些數字背後，是現實世界中潛在的安全隱患——尤其在機器人操作、自動駕駛、醫療輔助決策等高風險領域。

當然，這項研究本身也存在一定局限。測試使用的是虛擬三維環境生成的合成圖像，雖然有很好的控制性，但與真實世界的複雜性仍有差距。遮擋和透視歧義只是觀察可靠性的兩種典型情形，現實中還有光線不足、運動模糊、傳感器噪聲等更多干擾因素，這些都有待未來研究繼續探索。此外，目前的測試框架聚焦於單次靜態的空間判斷，而真實的機器人任務往往需要連續的多步決策——如何將觀察可靠性評估延伸到這類長時序場景，同樣是一個開放的研究方向。

贊助商廣告

混合訓練的結果已經給出了一個積極的信號：這種能力是可以習得的，而且一旦習得，不必以損失回答準確率為代價。這意味著，未來構建更安全、更可靠的AI視覺系統，是完全可期的目標——前提是訓練數據的設計要更全面地覆蓋各種"不確定"情境，而不是只考察模型會不會答題，還要考察它知不知道什麼時候不該答。

有興趣深入了解這項研究的讀者，可以通過論文編號arXiv:2605.30557查閱完整原文。

---

Q&A

Q1：SPATIALUNCERTAIN測試框架是用真實照片測試的嗎？

A：不是。SPATIALUNCERTAIN使用的是虛擬三維室內場景生成的合成圖像，通過Holodeck系統自動生成場景布局，再用AI2-THOR渲染引擎從不同角度拍攝。這樣設計的好處是可以精確控制遮擋程度和攝像機角度，確保測試結果能準確歸因於觀察條件的變化，而非場景內容的差異。研究者也指出，這種合成環境可能無法完全覆蓋真實世界的複雜性，是該研究的一個局限。

Q2：為什麼視覺資訊在透視歧義場景中反而會讓AI表現更差？

A：因為那些存在透視扭曲的圖像本身包含了系統性的視覺誤導——靠近攝像機的物體看起來更大，這是正常的透視效果，但它使兩個實際相同大小的物體看起來不一樣。AI會根據這些視覺資訊給出自信的答案，卻不會意識到這個視角本身是有問題的。加入圖片後，錯誤的視覺線索反而壓制了模型可能存在的不確定性傾向，導致識別"無法確定"的正確率大幅下滑，比純文字輸入時還要低。

Q3：混合訓練為什麼比單獨訓練某類場景效果更好？

A：單獨用遮擋數據或透視數據訓練時，模型只學會了識別某一種"看不清楚"的模式，遇到另一類情境時不僅無法遷移，甚至會產生負面干擾。而混合訓練讓模型同時接觸兩種不同性質的不確定性——一種是資訊缺失（遮擋），一種是資訊誤導（透視歧義）——這促使模型學習到更通用的"評估觀察是否可靠"的能力，而不是只記住某種特定的表面特徵。這種多樣性訓練最終在兩類場景上都取得了顯著改善，且不以損失回答準確率為代價。

贊助商廣告