浙江大學研究團隊揭秘：AI真的「看懂」3D空間了嗎？還是只會紙上談兵？

這項由浙江大學（聯合螞蟻集團、西湖大學、浙江工業大學）開展的研究發表於2026年4月，論文編號為arXiv:2604.20570，有興趣深入了解的讀者可通過該編號查閱完整論文。

贊助商廣告

---

一扇門轉動了90度之後，它相對於牆壁的位置會怎麼變化？桌上的杯子往左移動20厘米，它和旁邊的盤子還挨著嗎？這些問題對人類來說幾乎是直覺反應，但對現在最先進的AI來說，卻可能是一道難倒它們的題目。

這正是浙江大學研究團隊試圖探究的核心問題。他們想知道：那些每天被我們用來聊天、看圖、甚至生成圖片的大型AI模型，到底在多大程度上真正理解了三維空間？當它們被要求"把桌上那個花瓶向右移動15厘米"並生成對應圖片時，能做到嗎？

答案說出來可能讓人有點沮喪——大部分現有AI模型在這件事上表現得相當糟糕。但研究團隊不僅發現了問題所在，還找到了一條改進的路徑，而且這條路徑帶來的收穫遠比預期要多得多。

---

一、我們為什麼要讓AI"動手改圖"，而不只是"看圖答題"

在這項研究出現之前，學術界衡量AI空間理解能力的方式，基本上是出一堆選擇題或填空題。比如：給AI看一張照片，問它"桌子左邊是什麼物體"，或者"房間裡最近的椅子距離鏡頭大約多少米"。這種方式就像考試時只出判斷題和選擇題，學生死記硬背也能過，但你根本不知道他是否真的理解了。

浙江大學的研究團隊意識到這個問題，於是提出了一個截然不同的思路：與其問AI"你看到了什麼"，不如要求它"按照指令改變圖像"。具體來說，就是給AI一張圖片和一條指令，比如"把最右邊那個花瓶順時針旋轉45度"，然後讓AI生成一張執行了這個操作之後的新圖片。

這就像是把一個學生從"背課文"的考試模式，切換到"動手做實驗"的模式。你可以在不理解任何物理知識的情況下背出"物體旋轉會改變朝向"，但要真正讓一個燒杯里的液體按規律反應，你必須真的懂化學。

贊助商廣告

研究團隊把這種"通過生成圖像來體現空間理解"的能力，命名為**生成式空間智能**（Generative Spatial Intelligence，簡稱GSI）。簡單說，就是AI不僅能說出空間關係，還能在圖像中正確地"執行"空間操作。

為了系統地測量這種能力，他們構建了一個全新的評測平台，叫做**GSI-Bench**。這是世界上第一個專門用來衡量AI生成式空間智能的基準測試，包含兩個互補的組成部分：一個來自真實世界照片的數據集，另一個來自電腦模擬環境的合成數據集。

---

二、空間操作的七種考題：從移動杯子到改變視角

在詳細介紹這兩個數據集之前，有必要說清楚研究團隊定義了哪些"空間操作"。畢竟，"空間智能"這個詞聽起來很寬泛，需要拆解成具體的任務才能測試。

研究團隊一共定義了七類空間操作，覆蓋了人類日常理解三維世界時最核心的幾種能力。

第一類叫做**相機相對移動**，指的是按照攝像機視角移動物體，比如"把那個垃圾桶向左移動20厘米"。這考察的是AI能否理解"左"和"右"是相對於觀察者視角而言的，而不是一個絕對方向。

第二類叫做**物體相對放置**，比如"把蘋果放到碗的左邊"。這需要AI理解兩個物體之間的相對位置關係，而不只是知道某個物體在哪裡。

第三類是**物體旋轉**，比如"把那隻毛絨玩具向左轉45度"。旋轉角度必須準確，否則空間關係就錯了。

第四類是**容器放置**，比如"把球放進箱子裡"，涉及更複雜的層次關係——一個物體在另一個物體內部。

第五類是**視角控制**，比如"向上看30度"。這不是在移動任何物體，而是改變觀察者的視點，相當於讓AI重新渲染一個不同角度的場景。

第六類是**空間移除**，比如"移除場景中最左邊的椅子，保持其他物體不變"。這考察AI能否精準識別並移除目標物體，同時不破壞背景。

第七類是**物體縮放**，比如"把那束花縮小25%"。AI需要在保持物體外觀的前提下，正確調整其在畫面中的比例和大小。

贊助商廣告

這七類操作從不同維度檢驗AI對三維世界的理解。有的簡單，有的複雜；有的只涉及單個物體，有的涉及物體之間或物體與觀察者之間的關係。把這些綜合起來，才能得到一個全面的能力畫像。

在技術層面，研究團隊用數學方式精確定義了每種操作——每個場景被描述為一組物體加上一台攝像機，每個物體有自己在三維空間中的位置、大小和朝向，每條指令被轉化為對這些參數的精確變換。這樣一來，"把蘋果向左移15厘米"就不再是模糊的語言，而是一個可以精確計算和驗證的三維幾何變換。

---

三、兩套考卷：真實世界的挑戰與模擬環境的精準

GSI-Bench由兩部分組成，各有側重，互為補充，就像一場考試既有開卷的實踐題，也有嚴格控制變量的標準化測試。

**GSI-Real：來自真實房間的441道難題**

GSI-Real的原始素材來自ScanNet++，這是一個包含大量真實室內場景的三維重建數據集，裡面有客廳、臥室、廚房等各種真實環境的照片。研究團隊從中挑選了441個樣本，覆蓋了211個不同的室內場景。

構建這個真實數據集面臨一個根本性難題：在真實照片中，你沒法直接"執行"空間操作然後拍下結果。你不可能真的把拍攝現場的花瓶移動15厘米，再從完全相同的角度重拍一張照片。

研究團隊的解決方案相當巧妙。他們藉助DetAny3D這個工具，從真實照片中重建出三維場景結構——提取出每個物體的三維位置、大小、朝向，以及攝像機參數。然後，對這些三維數據應用規則生成空間操作，並通過可視化驗證操作的合理性。

具體來說，對於每個候選操作，他們會把"變換前"和"變換後"的三維邊框都投影到圖像平面上，生成前後對比圖，再用一個大型多模態AI來審核這些操作是否物理上可行——比如移動後的物體會不會和其他物體碰撞，會不會超出畫面範圍，等等。AI還負責把模板化的描述改寫成更自然的語言指令。

贊助商廣告

最後，經過人工審核，研究團隊剔除了剩餘的標註錯誤和模糊指令，確保每一道題都清晰、合理、有意義。

由於GSI-Real沒有"標準答案圖片"（因為真實操作無法執行），評測時採用的是分析AI生成圖片與指定三維變換之間一致性的方法，而不是與某張參考圖對比。

**GSI-Syn：來自模擬世界的大規模精準數據**

GSI-Syn則完全不同。它建立在AI2-THOR和MesaTask這兩個開源三維模擬器之上，包含兩個子集：GSI-Syn-Room（593個樣本，六種操作，模擬室內導航場景）和GSI-Syn-Tabletop（600個樣本，三種操作，模擬桌面操作場景）。此外還有GSI-Syn-Bathroom，包含200個樣本，專門用於測試跨視角泛化能力。

在模擬器里，研究團隊可以精確控制每一個參數。他們首先在場景地圖上用聚類算法找出各個獨立的房間區域，然後在每個區域內採樣儘量分散的觀察視點，優先選擇包含更多可操作物體的視點。

對每個視點，系統隨機選擇目標物體，進行三維幾何驗證（確保物體沒有被遮擋、移動後不會掉出支撐面、放置時不會與其他物體碰撞），然後生成對應的文字指令。接著，模擬器實際執行這個操作——先計算理想目標狀態，再讓物理引擎執行動作，檢查實際結果是否與理想目標一致。不成功的操作會被回滾重新抽樣。

最後，通過實例分割掩碼過濾掉視覺變化微弱的樣本，再用Qwen3-VL-235B這個大模型來發現模擬瑕疵、物理異常或嚴重遮擋。

這個流程的好處是顯而易見的：每一對圖像（操作前和操作後）都有完美精確的三維標註，不存在任何歧義，而且可以無限擴展生成新數據。用於訓練的GSI-Syn-Train包含了10500個樣本，涵蓋多種操作類型和多種場景，且與測試集嚴格分離。

---

四、四把尺子：怎麼判斷AI改的圖"合不合格"

有了數據集，還需要一套評測標準。研究團隊設計了四個互補的評估維度，像是從四個不同角度給AI生成的圖片打分。

贊助商廣告

第一個維度叫**指令合規性**，判斷AI改出的圖片是否滿足指令的基本語義要求。比如指令說"向左移動"，AI生成的圖片裡那個物體確實在左邊嗎？這是一個"通過/不通過"的二元判斷，允許有合理的誤差範圍，不要求精確到毫米。

第二個維度叫**空間精確度**，只對通過了合規性檢查的樣本進行計算，測量幾何精度。比如指令說移動15厘米，AI實際生成的位移是多少？旋轉角度的偏差有多大？這些誤差被匯總成一個綜合的精確度分數，分數越高代表越精準。

第三個維度叫**編輯局部性**，檢查AI在修改目標物體的同時，有沒有"誤傷"其他區域。比如只需要移走一個花瓶，但AI順手把旁邊的書也動了，或者把背景渲染得面目全非——這就是局部性差的表現。評測方法是用目標物體的三維邊框作為遮罩，計算遮罩外區域在修改前後的視覺相似度。分數越高，說明非目標區域保持得越完整。

第四個維度叫**外觀一致性**，由Qwen3-VL-235B這個大模型擔任"視覺檢察官"，檢查被操作的物體在移動/旋轉/縮放之後，外觀是否保持一致——顏色、紋理、類別有沒有變化？如果是移除操作，就檢查被移除位置的背景修補得自不自然，有沒有殘留痕跡或明顯拼接感。

在正式計算指令合規性和空間精確度之前，系統還會先過一道"局部性門檻"——如果AI生成的圖片與原圖幾乎毫無差別（說明AI根本沒有執行操作），或者差別過於劇烈（說明AI把整張圖都改了），就會直接排除，不計入成績。合成數據的門檻比真實數據更嚴格，因為模擬環境下的操作效果理應更精確可控。

---

五、九位選手同台競技，結果如何？

研究團隊選了九個當前最先進的AI模型來參加這場空間智能大考，包括七個開源模型（BAGEL、Anyedit、Uniworld、Ultra、Qwen-Image-Edit、Omnigen2、Emu3.5）和兩個商業閉源模型（NanoBanana和GPT-image）。

總體來看，成績不太好看。

贊助商廣告

在GSI-Syn-Tabletop這個桌面操作子集上，商業閉源模型NanoBanana平均得分37.03，GPT-image是33.97——在這些選手裡算是最高的，但絕對值也相當有限。更有意思的是，兩個商業模型在GSI-Real真實場景上的表現（33.52和34.70）居然只跟開源模型Qwen（43.44）和Emu3.5（43.52）差不多，甚至還略遜一籌。這說明商業模型雖然生成圖片的整體質量很高，但在需要精確三維幾何理解的空間操作上，並沒有明顯優勢。

在開源模型里，Emu3.5表現最強，在GSI-Real上平均達到43.52，各個維度都相對均衡。研究團隊分析認為，這可能得益於Emu3.5在影片數據上的訓練——影片天然包含時序幀之間的視角和空間變化，間接積累了一些三維空間的先驗知識。

相比之下，Uniworld、Ultra和Omnigen2等通用模型表現差距顯著，部分模型的指令合規性或外觀一致性分數極低，說明它們很難理解和執行結構化的空間操作指令。

從質性分析來看，能執行的操作類型也有明顯規律。幾乎所有模型在"移除物體"這類操作上表現最好，因為"刪掉某個東西然後修補背景"對AI來說相對容易。但旋轉、精確移動這類需要明確理解三維幾何的操作，大多數模型都力不從心。Emu3.5在移除操作上做得最乾淨，背景修補最自然。AnyEdit則經常出現"原封不動不執行"或"改了視覺屬性但位置沒變"的問題。BAGEL有時候會把"把物體向左移"理解成"攝像機向左平移"，產生完全不同的視覺效果。Qwen和Emu3.5在識別"最左邊的"、"最前面的"這類參照性描述時比較可靠，但偶爾也會多刪一些不該刪的內容，說明細粒度的空間定位仍然是挑戰。

---

六、用模擬數據"練功"，真實場景也跟著受益

光發現問題還不夠，研究團隊還想看看能否通過訓練來改進這種能力。他們選擇了BAGEL作為基礎模型，用GSI-Syn-Train（10500個合成訓練樣本）對它進行微調，然後分別在合成測試集和真實數據集上評測改進效果。

贊助商廣告

結果相當令人振奮。

在GSI-Syn-Tabletop上，微調後的模型平均得分從26.59躍升到48.74，提升了22.15分——幾乎翻倍。在GSI-Real真實場景上，平均得分從28.46提升到36.28，提升了7.83分。其中，編輯局部性提升最多（+9.22分），外觀一致性和指令合規性也分別提升了8.25和8.16分，說明模型不僅學會了更精準地執行操作，還學會了更好地保護非目標區域並維持物體外觀。

從合成數據到真實場景的遷移能力尤其值得關注——畢竟訓練數據全部來自模擬器，測試用的真實照片裡的光照、紋理、視角變化都和模擬環境大相徑庭。但提升確實發生了，說明從模擬環境中學到的幾何推理能力是可以泛化到真實世界的。

在GSI-Syn-Room室內場景子集上，提升幅度（+7.05分）比Tabletop更小，研究團隊認為原因在於室內場景比桌面場景複雜得多——更多物體、更複雜的遮擋關係、更大的空間範圍——這些都加大了全局空間推理的難度，也揭示了當前方法還有改進空間。

---

七、意外收穫：練習"改圖"，居然讓AI更會"看圖"

這項研究最出人意料的發現出現在最後階段。研究團隊把微調後的模型拿去測試兩個純粹的空間理解基準——OmniSpatial和SAT-Real，看看專注於生成任務的訓練會不會順帶提升AI對空間的理解能力。

請注意，訓練時完全沒有給模型任何理解類的訓練數據，只有純粹的圖像編輯任務——輸入一張圖和一條指令，輸出一張改好的圖。

但結果是：空間理解能力確實提升了。

在OmniSpatial測試中，BAGEL微調後的總體準確率從41.55%提升到42.07%。分項來看，動態推理（+0.95%）、空間交互（+2.00%）和視角理解（+1.07%）都有提升。唯一下降的是複雜邏輯推理（-3.17%），研究團隊解釋這是因為訓練數據里完全沒有邏輯推理相關的內容，這部分能力沒有得到強化，可能因為資源分配而略有下降。

在SAT-Real測試中，整體準確率從65.33%提升到69.33%，提升了4個百分點。其中目標定向（GoalAim，從75.00%提升到85.29%）和自我中心運動（EgoM，從60.87%提升到73.91%）的提升最為突出。這兩類能力恰恰與生成任務中的視角理解和方向推理高度相關。

贊助商廣告

這個發現在理論上是很重要的。長期以來，AI領域的研究者傾向於認為理解和生成是兩條相對獨立的路——你用理解數據訓練理解能力，用生成數據訓練生成能力。但這項研究表明，對於空間智能來說，生成式的訓練可以作為一種"練習媒介"，幫助模型內化三維空間的結構和規律，進而改善對空間關係的感知和判斷。

打個比方：一個從未動手組裝過積木的孩子，可能比一個經常搭積木的孩子更難想像積木在空間中的旋轉效果。"動手做"的經驗在某種程度上加深了空間直覺，即便你問的問題和"動手"沒有直接關係。AI似乎也有類似的機制。

---

歸根結底，浙江大學這支團隊做了一件很有價值的事：他們不滿足於用"問答題"來衡量AI的空間智能，而是設計了一套更貼近真實能力的"動手題"——要求AI不只是說出空間關係，而是在圖像中正確地執行空間變換。GSI-Bench的出現填補了這個評測空白，讓我們第一次有了系統衡量這種能力的工具。

測試結果顯示，現有最先進的模型在這類任務上普遍表現一般，商業大模型的優勢也遠不如在其他任務上那麼顯著。而通過在模擬數據上微調，不僅可以提升生成式空間智能本身，還能附帶改善空間理解能力——這為未來研究提供了一個新思路：生成和理解或許不是非此即彼的兩條路，而是可以相互促進的兩種練習方式。

這項研究對普通用戶的意義，可能要等到幾年後才會真正顯現——當你打開手機上的圖像編輯工具，對著一張家居照片說"把那盞落地燈移到沙發右邊一米"，然後AI真的準確無誤地生成了你想要的效果，而不是把燈變成一堆像素噪點。那時候，你手邊的工具里，或許就有這項研究的一份貢獻。

若有興趣深入了解技術細節，可通過arXiv編號2604.20570查閱完整論文。

---

Q&A

Q1：GSI-Bench和現有的AI圖像理解基準測試有什麼不同？

A：GSI-Bench專門測試AI能否通過生成圖像來正確執行空間操作，比如"把桌上的杯子向左移動20厘米"，然後檢查AI生成的新圖片是否真的做到了。現有的大多數基準測試只考察AI回答空間相關問題的能力，比如問"桌子左邊是什麼物體"，但不要求AI真正改變圖像。兩者的區別類似於"背誦交通規則"和"實際開車"，後者更能體現真實能力。

贊助商廣告

Q2：為什麼用模擬環境的數據訓練AI，在真實照片上也能有效果？

A：模擬環境的核心優勢是可以生成精確標註的三維數據——每次空間操作的前後狀態都有精確的幾何記錄。AI通過大量練習這些操作，學到了三維空間變換的內在規律，這些規律是普遍成立的，不依賴於場景是真實拍攝還是電腦渲染。好比學游泳時在標準泳池裡練習的技巧，到了海里同樣適用，因為水的物理性質是一樣的。

Q3：為什麼改圖訓練能順帶提升AI看圖的空間理解能力？

A：研究團隊認為，生成式的空間訓練迫使AI在內部建立更精確的三維空間表徵。要正確地"把物體向右移動15厘米並生成圖像"，AI必須真正理解物體在三維空間中的位置和運動方式，而不能只靠表面的視覺模式匹配。這種內化的空間理解反過來也幫助AI在純理解任務中表現更好，就像經常動手畫地圖的人，往往也更善於在腦海中想像方向和距離。