當AI「看」懂3D空間卻還不會「動手」修——香港科技大學等機構聯合揭示視覺語言模型的空間行動鴻溝

這項由香港科技大學（廣州）、清華大學、中關村學院、赫爾辛基大學聯合開展的研究，以預印本形式發布於2026年5月29日，論文編號為arXiv:2605.31148。有興趣深入了解的讀者可通過該編號在arXiv平台查詢完整論文。

贊助商廣告

**一、你的機器人助手為什麼總是擺不好家具**

假設你正在搬家，請了一個助手幫你把新家的家具擺好。這個助手眼神很好，能一眼看出哪張椅子擺歪了、哪個書櫃越過了牆線、哪個床頭櫃和衣櫃撞在了一起。但奇怪的是，每次你指出一個問題讓他去修，他要麼修錯了位置，要麼修好這個又碰壞了那個，要麼乾脆修了幾下就說"好了！"然後拍拍手離開——但其實房間裡還亂著。

這個令人抓狂的助手，就是今天許多頂尖AI視覺語言模型（也就是那種能"看圖說話"、既能理解圖像又能生成文字的人工智慧）在面對3D空間任務時的真實狀態。研究團隊正是被這個問題所驅動，搭建了一套名為SpatialAct的測試平台，專門用來戳破AI在"看懂空間"和"動手改空間"之間那道隱而不顯的裂縫。

**二、空間智能：不只是"看出來"，更要"做出來"**

在日常生活中，人類處理空間問題是一件極為自然的事。你走進一間亂糟糟的儲藏室，眼睛一掃就知道紙箱壓了椅子、梯子擋了門、花盆太靠邊快掉了。接著你伸手調整，推一推、挪一挪、轉一轉，每改動一件東西，你都會重新審視整個房間，判斷問題是否真的解決了，或者有沒有帶來新的麻煩。這個"看—判斷—動手—再看—再判斷"的循環，對人類而言輕而易舉。

近年來，各種視覺語言模型（Vision-Language Models，簡稱VLMs）在這類"看圖問答"任務上表現越來越亮眼。給它一張房間的圖片，問它"書櫃在椅子的哪個方向"，或者"如果把桌子往北移80厘米會不會碰到牆"，許多模型都能答得頭頭是道。然而，這類任務有一個共同特點：模型只是一個旁觀者，它的回答不會真的改變圖片裡的任何東西，下一輪問題時面對的仍然是同一張靜止的圖。

贊助商廣告

研究團隊發現，這正是當前評測體系的一個巨大盲區。現有的空間推理測試，絕大多數都是讓模型"被動觀察"：給你圖，問你問題，答完就結束。即便是一些更複雜的具身智能當AI看懂3D空間卻還不會動手修香港科技大學等機構聯合揭示視覺語言模型的空間行動鴻溝（Embodied AI）測試，又往往把高級的空間推理和底層的機械控制（怎麼移動機器人關節、怎麼抓取物體）混在一起，很難單獨評估"空間思維"本身的好壞。

於是，一個重要的空白地帶出現了：AI能不能在"動了一下"之後，重新理解更新過的環境，並持續、連貫地做出正確判斷？這種能力，研究團隊稱之為"行動條件下的空間推理"（action-conditioned spatial reasoning）——不只是靜態地看懂空間，而是在自己的每一個動作之後，都能跟上環境變化，繼續保持準確的空間認知。

**三、SpatialAct：一座專門測試"動手能力"的空間擂台**

為了把這個問題變得可測量、可分析，研究團隊構建了SpatialAct這套基準測試平台。它的核心設計思路，就像是給AI搭了一間3D模擬房間，讓它不僅要看懂房間裡的問題，還要親自動手去修，修完了系統會把更新後的房間圖片重新發給它，然後AI再看、再判斷、再動手，循環往復。

這套平台涵蓋了三類場景。第一類是"抽象幾何"場景，裡面擺的是各種簡單幾何體，比如正方體、圓柱體、L形體、U形體等，形狀乾淨、沒有語義干擾，專門用來測試模型的純粹幾何空間能力。第二類是"城市建築"場景，來源於一個叫做RAISECity的城市級3D生成框架，裡面有白模建築和帶貼圖的建築混合擺放，每個場景不超過20棟樓，模擬真實的城市規劃布局。第三類是"室內場景"，來自InternScenes這個大型室內場景數據集，裡面有各種可移動的家具，每個場景包含5到15個對象。

整個數據集共有333個場景，4355道題，題目分為開放式問答、多項選擇題和多輪反饋交互三種格式。每個場景都會從兩個視角渲染出圖片：一是正上方的俯視圖（top-view），像衛星地圖一樣看整個布局；二是斜45度的等軸測視圖（isometric-view），像遊戲裡的上帝視角，能看到物體的立體形態。兩張圖同時給到模型，讓它從不同角度理解場景。

贊助商廣告

數據的質量控制也經過了嚴格把關。幾何場景因為是程序自動生成的，天然滿足約束條件，不需要額外篩查。建築和室內場景則經歷了程序自動清洗加人工覆核兩道關卡，檢查物體尺寸是否合理、空間擺放是否合乎常識、有沒有明顯的語義衝突，確保所有"乾淨"場景在注入錯誤之前本身是正確的。

**四、三層台階：從看懂空間到動手修空間**

SpatialAct的任務設計遵循一種從簡單到複雜的階梯結構，就像一場考試分成填空題、應用題和綜合大題三個難度層次，每一層都對應著不同深度的空間能力考察。

最底層是"基礎空間能力"的五項測試，分別對應五種不同維度的空間認知。其中"物體含義"考察的是最基本的識別和定位，比如"房間裡有幾個柜子"、"離柜子最近的是幾號物體"這類問題。"空間關係"則進一步考察物體之間的相對位置，比如"3號樓在5號樓的哪一側"。"空間定向"涉及視角轉換，比如"在等軸測圖里最偏北的那棟樓，如果把視角順時針轉90度，它會出現在哪個方向"——這需要模型能在腦子裡旋轉整個坐標系。"心理旋轉"則是更高難度的想像力測試，比如"如果把1號物體圍繞場景中心逆時針旋轉90度，它會不會和4號物體發生碰撞，哪個選項展示了正確的結果"。最後的"空間可視化"考察的是假設性操作的後果推斷，比如"如果把4號樓和5號樓的位置互換，互換後場景里還有沒有碰撞"。

中間層是"單步錯誤檢測與修復"，它把任務複雜度提升了一個台階。這層任務里，模型看到一個已經存在問題的場景，先要判斷"這個場景里有什麼問題"（檢測），然後從給出的幾個選項里挑出"一步到位能解決問題的那個動作"（修復）。這就好比給你一張房間的照片，讓你看出哪裡不對，然後從"把A往北移60厘米"、"把B旋轉30度"、"把C縮小到0.8倍"幾個選項里選一個最合適的。

最頂層才是SpatialAct真正的核心挑戰——"多輪交互式修復"。在這個任務里，模型面對一個有若干空間錯誤的場景，必須通過反覆操作來把所有錯誤都修好。每一輪，模型先觀察當前的俯視圖和等軸測圖，輸出它認為需要執行的修復動作，系統解析這個動作指令並在模擬器里真實執行，然後把更新後的場景圖片重新發給模型。模型再看、再判斷、再輸出動作，如此循環，直到模型判斷"場景已經乾淨了"，或者達到了預設的最大輪次上限（30輪）為止。

贊助商廣告

模型可以使用的動作類型有三種：移動（move，指定方向和距離）、旋轉（rotate，指定角度）、縮放（scale，指定比例）。城市建築場景里的錯誤類型包括建築之間的碰撞、建築壓在道路上的衝突，以及建築朝向不符合道路走向的方向性錯誤。室內場景里的錯誤則對應為物體之間的碰撞、物體穿越牆壁的衝突，以及家具擺放方向不合常理的朝向錯誤。

**五、用數字衡量"修得好不好"**

為了公正、全面地評價模型在多輪交互修復任務中的表現，研究團隊設計了一套五維度的評估指標體系，分別從修復準確性和修復效率兩個角度切入。

衡量修復準確性的第一個指標是"修復率"（Repair Rate），計算方式是"修復前的錯誤數減去修復後的錯誤數，除以修復前的錯誤數"。這個數字越接近1，說明模型把錯誤消滅得越徹底；如果這個數字是負數，說明模型越改越糟，引入了更多新錯誤。第二個是"場景成功率"（Scene Success Rate），衡量的是有多少比例的場景被完全修好（所有錯誤清零）。這是一個更嚴格的標準：不是部分修好，而是徹底修乾淨。

衡量修復效率的三個指標則從另一個角度審視模型行為。"有效修復輪次比例"（Effective Repair Turn Ratio）統計的是所有交互輪次中，真正減少了錯誤的輪次占多少——如果這個比例很低，說明模型在大量"無效操作"，做了很多白功。"過早停止率"（Premature Stop Rate）統計的是在場景還有錯誤時模型就說"好了"然後停下來的比例——這個比例越高，說明模型越容易誤以為任務完成了。最後，"每場景平均完成token數"衡量的是模型在整個修復過程中消耗的計算量，反映了推理的經濟效益。

**六、測試結果：AI與人類之間令人意外的巨大落差**

研究團隊把七個當前最強的視覺語言模型拉到這套擂台上逐一考驗，結果揭示出一幅既有安慰、也有震撼的圖景。

在基礎空間能力和單步任務上，閉源的頂尖模型表現相當不錯。Gemini-3.1 Pro在大多數基礎能力子項上都保持在70%到80%的準確率區間，GPT-5.4也緊隨其後。這部分結果頗令人寬慰——說明這些模型確實"看懂"了不少空間資訊。

贊助商廣告

然而，一旦來到多輪交互修復這道真正的考題，畫風就急轉直下。Gemini-3.1 Pro以0.411的修復率和0.206的場景成功率領跑所有AI模型——但這意味著它平均只能消除約41%的錯誤，而且只有大約五分之一的場景能被徹底修乾淨。GPT-5.4的修復率是0.208，場景成功率僅有0.038，也就是說將近96%的場景都沒能完全修好。GLM-5V-Turbo的修復率甚至是負數，達到了-0.012，說明它改來改去反而越改越壞。開源模型的表現同樣令人失望，Kimi-K2.5、Qwen3.6-27B的修復率都在0.03到0.04的極低水平徘徊。

與之形成鮮明對比的是，七名人類測試者使用研究團隊專門開發的網頁端操作平台來完成同樣的任務，他們的修復率高達0.911，場景成功率達到0.763。也就是說，人類平均能修好90%以上的錯誤，有超過四分之三的場景能被徹底清乾淨。最強AI和普通人類之間，整整相差了50個百分點的修復率。

過早停止率這個指標同樣觸目驚心。Kimi-K2.5和Qwen3.6-27B的過早停止率高達0.920，也就是說每10個場景里有9個，模型在還有錯誤殘留的時候就已經宣告"完成任務"了。Gemini-3.1 Pro相對好一些，過早停止率為0.566，但仍然意味著超過一半的場景被過早地放棄了。

論文還展示了兩個具體的失敗案例來說明模型究竟在哪裡栽了跟頭。在一個室內場景中，GLM-5V-Turbo對著廁所（object 5）和貨架（object 8）反覆推敲，擔心它們是否越界，但對於真正有問題的物體卻誤判為"沒有問題"，最終給出了錯誤的修復對象和方向。在另一個城市建築場景中，模型把一棟壓在路上的樓（Building 5）和一棟轉角朝向異常的樓（Building 12）都識別出來了，但給Building 5開出的"往北移動0.8米"的藥方實際上並不能解決建築-道路衝突問題，顯示出從正確診斷到正確行動之間仍然存在斷層。

**七、是什麼導致了這個鴻溝**

研究團隊沒有停留在揭示問題上，還做了一系列更細緻的分析，試圖搞清楚這道鴻溝究竟是從哪裡來的。

贊助商廣告

從場景類型的角度來看，Gemini-3.1 Pro在室內場景上的修復率和有效修復輪次比例都高於城市建築場景，說明模型對室內環境更熟悉，更擅長處理家具的空間問題。有意思的是，建築場景的場景成功率反而稍微高一點，研究團隊推測這可能是因為建築布局相對簡單、對象間的依賴關係沒那麼複雜，一旦修好了關鍵錯誤，整個場景就容易達到全部清零的狀態。

從錯誤類型的角度來看，三個主要測試模型（Gemini-3.1 Pro、GPT-5.4、Qwen3.6-35B-A3B）都呈現出同樣的規律：朝向錯誤最容易修，道路/牆壁衝突最難修，碰撞問題居中。朝向修復通常只需要旋轉某個物體就能解決，是相對孤立的屬性調整。而衝突修復往往牽一髮而動全身，修了這個物體可能帶出新的衝突，需要同時協調多個對象的位置，對模型的全局規劃能力要求極高。

從場景複雜度的角度來看，研究團隊把室內場景按照初始錯誤數量分成了三組（1到3個錯誤、4到6個錯誤、7個以上錯誤），結果不出意外——錯誤越多的場景，修復率和場景成功率越低。當場景里有7個以上相互牽連的錯誤時，模型幾乎束手無策，GPT-5.4和GLM-5V-Turbo在這個難度區間的場景成功率趨近於零。

研究團隊還專門測試了上下文窗口大小對模型表現的影響，用Kimi-K2.5（這個模型的推理輸出特別長）在100個樣本上做了實驗，分別限制到8K、16K、32K個token的上限。結果發現，隨著上下文窗口增大，模型確實會生成更多的推理內容、進行更多輪次的互動，但修復率和場景成功率幾乎沒有變化。這說明"讓模型想更多"並不等於"讓模型修得更好"，瓶頸不在於推理預算，而在於跨輪次的狀態追蹤能力、錯誤優先級判斷，以及面對反饋時的動作可靠性。

最後，研究團隊還計算了六項基礎任務的得分和多輪交互修復表現之間的相關性。六項基礎任務的得分都與修復表現呈正相關，這說明基礎能力確實是複雜任務的基石，基礎越好的模型在修復上也做得更好。其中相關性最強的是"單步錯誤檢測與修復"任務，它與修復率的皮爾遜相關係數高達0.817，與場景成功率的相關係數為0.690，說明"單步檢測修復"的能力正是多輪交互修復的核心構件，被模型反覆調用。排在第二位的是"物體含義"，說明對物體位置和身份的精準識別，對於將局部修復延伸到整個場景的一致性至關重要。不過，基礎能力強並不能保證多輪修復就一定成功，因為疊代修復還額外依賴跨輪次的記憶維護、衝突感知的規劃，以及對反饋的穩定響應——這些都是更高階的協調能力，目前的模型普遍欠缺。

贊助商廣告

**八、這項研究意味著什麼**

說到底，SpatialAct這項研究幹的事，是把AI的一個"假裝很強"的假象給戳破了。那些在靜態空間問答里答得津津有味的模型，一旦被要求真正動手在一個會隨自己行動而改變的3D環境裡工作，就立刻原形畢露。看懂空間和在空間裡行動，是兩件完全不同的事。

歸根結底，這個差距來自一種人類覺得理所當然、但機器目前還很缺乏的能力——在行動之後，持續、準確地知道"現在的世界是什麼樣的"，並據此規劃下一步。每一次你動了一件家具，你的大腦會自動更新對整個房間的認知模型，下一個判斷是基於更新後的狀態做出的。而當前的視覺語言模型雖然能接收到更新後的圖片，卻常常無法把這些更新穩定地整合進自己的空間認知里，更無法基於多輪歷史形成連貫的修復策略。

研究團隊坦誠地指出，這套測試目前全部在模擬環境裡進行，真實世界中的複雜光照、遮擋、噪聲等問題沒有被納入考量，是未來工作的重要方向。此外，如何針對性地提升模型的多輪空間修復能力，目前還沒有成熟的解決方案，這也留給了後續研究者一個清晰的目標。

對於普通讀者而言，這項研究的意義是相當實際的。在不遠的將來，各種AI助手會越來越多地參與到室內設計、家居規劃、城市建設、遊戲場景生成等需要三維空間理解和動手操作的場景中。SpatialAct這套評測體系的出現，為判斷"哪些模型真正有空間動手能力"提供了一把可靠的尺子，也為研究者指明了"接下來最需要突破什麼"的方向。有興趣深入探索的讀者，可以前往arXiv通過論文編號arXiv:2605.31148查閱完整的原始論文，研究團隊也在GitHub上公開了完整的基準數據、模擬器工作流和評估工具，地址為tsinghua-fib-lab/SpatialAct。

Q&A

Q1：SpatialAct測試平台的三類場景分別是什麼，各有什麼特點？

A：SpatialAct包含三類場景。抽象幾何場景由程序自動生成，內含立方體、圓柱、L形、U形等幾何體，形狀乾淨無語義干擾，專門測試純幾何空間能力。城市建築場景來自RAISECity框架，由白模和帶貼圖的建築混合構成，每場景不超過20棟樓，模擬城市規劃布局。室內場景來自InternScenes數據集，包含各類可移動家具，每場景含5到15個對象，視覺複雜度最高。

贊助商廣告

Q2：多輪交互修復任務里，AI模型和人類的表現差距有多大？

A：差距非常顯著。最強的AI模型Gemini-3.1 Pro的修復率為0.411，場景成功率為0.206，而七名人類測試者的修復率高達0.911，場景成功率達0.763。兩者之間整整相差約50個百分點的修復率。部分開源模型的修復率甚至是負數，說明越改越壞。此外，多數開源模型在超過90%的場景中會在錯誤還未完全消除時就提前宣告任務完成。

Q3：為什麼增大AI模型的上下文窗口並不能提升空間修復效果？

A：研究發現，隨著上下文窗口從8K增大到32K，模型會生成更多推理內容並進行更多輪次互動，但修復率和場景成功率幾乎沒有變化。這說明瓶頸不在於推理預算，而在於模型跨輪次的空間狀態追蹤能力、錯誤優先級判斷，以及面對環境反饋時穩定輸出正確動作的能力。更多的思考並不能彌補空間狀態維護能力本身的不足。