這項由浙江大學(聯合螞蟻集團、西湖大學、浙江工業大學)開展的研究發表於2026年4月,論文編號為arXiv:2604.20570,有興趣深入了解的讀者可通過該編號查閱完整論文。
---
一扇門轉動了90度之後,它相對於牆壁的位置會怎麼變化?桌上的杯子往左移動20厘米,它和旁邊的盤子還挨著嗎?這些問題對人類來說幾乎是直覺反應,但對現在最先進的AI來說,卻可能是一道難倒它們的題目。
這正是浙江大學研究團隊試圖探究的核心問題。他們想知道:那些每天被我們用來聊天、看圖、甚至生成圖片的大型AI模型,到底在多大程度上真正理解了三維空間?當它們被要求"把桌上那個花瓶向右移動15厘米"並生成對應圖片時,能做到嗎?
答案說出來可能讓人有點沮喪——大部分現有AI模型在這件事上表現得相當糟糕。但研究團隊不僅發現了問題所在,還找到了一條改進的路徑,而且這條路徑帶來的收穫遠比預期要多得多。
---
一、我們為什麼要讓AI"動手改圖",而不只是"看圖答題"
在這項研究出現之前,學術界衡量AI空間理解能力的方式,基本上是出一堆選擇題或填空題。比如:給AI看一張照片,問它"桌子左邊是什麼物體",或者"房間裡最近的椅子距離鏡頭大約多少米"。這種方式就像考試時只出判斷題和選擇題,學生死記硬背也能過,但你根本不知道他是否真的理解了。
浙江大學的研究團隊意識到這個問題,於是提出了一個截然不同的思路:與其問AI"你看到了什麼",不如要求它"按照指令改變圖像"。具體來說,就是給AI一張圖片和一條指令,比如"把最右邊那個花瓶順時針旋轉45度",然後讓AI生成一張執行了這個操作之後的新圖片。
這就像是把一個學生從"背課文"的考試模式,切換到"動手做實驗"的模式。你可以在不理解任何物理知識的情況下背出"物體旋轉會改變朝向",但要真正讓一個燒杯里的液體按規律反應,你必須真的懂化學。
研究團隊把這種"通過生成圖像來體現空間理解"的能力,命名為**生成式空間智能**(Generative Spatial Intelligence,簡稱GSI)。簡單說,就是AI不僅能說出空間關係,還能在圖像中正確地"執行"空間操作。
為了系統地測量這種能力,他們構建了一個全新的評測平台,叫做**GSI-Bench**。這是世界上第一個專門用來衡量AI生成式空間智能的基準測試,包含兩個互補的組成部分:一個來自真實世界照片的數據集,另一個來自電腦模擬環境的合成數據集。
---
二、空間操作的七種考題:從移動杯子到改變視角
在詳細介紹這兩個數據集之前,有必要說清楚研究團隊定義了哪些"空間操作"。畢竟,"空間智能"這個詞聽起來很寬泛,需要拆解成具體的任務才能測試。
研究團隊一共定義了七類空間操作,覆蓋了人類日常理解三維世界時最核心的幾種能力。
第一類叫做**相機相對移動**,指的是按照攝像機視角移動物體,比如"把那個垃圾桶向左移動20厘米"。這考察的是AI能否理解"左"和"右"是相對於觀察者視角而言的,而不是一個絕對方向。
第二類叫做**物體相對放置**,比如"把蘋果放到碗的左邊"。這需要AI理解兩個物體之間的相對位置關係,而不只是知道某個物體在哪裡。
第三類是**物體旋轉**,比如"把那隻毛絨玩具向左轉45度"。旋轉角度必須準確,否則空間關係就錯了。
第四類是**容器放置**,比如"把球放進箱子裡",涉及更複雜的層次關係——一個物體在另一個物體內部。
第五類是**視角控制**,比如"向上看30度"。這不是在移動任何物體,而是改變觀察者的視點,相當於讓AI重新渲染一個不同角度的場景。
第六類是**空間移除**,比如"移除場景中最左邊的椅子,保持其他物體不變"。這考察AI能否精準識別並移除目標物體,同時不破壞背景。
第七類是**物體縮放**,比如"把那束花縮小25%"。AI需要在保持物體外觀的前提下,正確調整其在畫面中的比例和大小。
這七類操作從不同維度檢驗AI對三維世界的理解。有的簡單,有的複雜;有的只涉及單個物體,有的涉及物體之間或物體與觀察者之間的關係。把這些綜合起來,才能得到一個全面的能力畫像。
在技術層面,研究團隊用數學方式精確定義了每種操作——每個場景被描述為一組物體加上一台攝像機,每個物體有自己在三維空間中的位置、大小和朝向,每條指令被轉化為對這些參數的精確變換。這樣一來,"把蘋果向左移15厘米"就不再是模糊的語言,而是一個可以精確計算和驗證的三維幾何變換。
---
三、兩套考卷:真實世界的挑戰與模擬環境的精準
GSI-Bench由兩部分組成,各有側重,互為補充,就像一場考試既有開卷的實踐題,也有嚴格控制變量的標準化測試。
**GSI-Real:來自真實房間的441道難題**
GSI-Real的原始素材來自ScanNet++,這是一個包含大量真實室內場景的三維重建數據集,裡面有客廳、臥室、廚房等各種真實環境的照片。研究團隊從中挑選了441個樣本,覆蓋了211個不同的室內場景。
構建這個真實數據集面臨一個根本性難題:在真實照片中,你沒法直接"執行"空間操作然後拍下結果。你不可能真的把拍攝現場的花瓶移動15厘米,再從完全相同的角度重拍一張照片。
研究團隊的解決方案相當巧妙。他們藉助DetAny3D這個工具,從真實照片中重建出三維場景結構——提取出每個物體的三維位置、大小、朝向,以及攝像機參數。然後,對這些三維數據應用規則生成空間操作,並通過可視化驗證操作的合理性。
具體來說,對於每個候選操作,他們會把"變換前"和"變換後"的三維邊框都投影到圖像平面上,生成前後對比圖,再用一個大型多模態AI來審核這些操作是否物理上可行——比如移動後的物體會不會和其他物體碰撞,會不會超出畫面範圍,等等。AI還負責把模板化的描述改寫成更自然的語言指令。
最後,經過人工審核,研究團隊剔除了剩餘的標註錯誤和模糊指令,確保每一道題都清晰、合理、有意義。
由於GSI-Real沒有"標準答案圖片"(因為真實操作無法執行),評測時採用的是分析AI生成圖片與指定三維變換之間一致性的方法,而不是與某張參考圖對比。
**GSI-Syn:來自模擬世界的大規模精準數據**
GSI-Syn則完全不同。它建立在AI2-THOR和MesaTask這兩個開源三維模擬器之上,包含兩個子集:GSI-Syn-Room(593個樣本,六種操作,模擬室內導航場景)和GSI-Syn-Tabletop(600個樣本,三種操作,模擬桌面操作場景)。此外還有GSI-Syn-Bathroom,包含200個樣本,專門用於測試跨視角泛化能力。
在模擬器里,研究團隊可以精確控制每一個參數。他們首先在場景地圖上用聚類算法找出各個獨立的房間區域,然後在每個區域內採樣儘量分散的觀察視點,優先選擇包含更多可操作物體的視點。
對每個視點,系統隨機選擇目標物體,進行三維幾何驗證(確保物體沒有被遮擋、移動後不會掉出支撐面、放置時不會與其他物體碰撞),然後生成對應的文字指令。接著,模擬器實際執行這個操作——先計算理想目標狀態,再讓物理引擎執行動作,檢查實際結果是否與理想目標一致。不成功的操作會被回滾重新抽樣。
最後,通過實例分割掩碼過濾掉視覺變化微弱的樣本,再用Qwen3-VL-235B這個大模型來發現模擬瑕疵、物理異常或嚴重遮擋。
這個流程的好處是顯而易見的:每一對圖像(操作前和操作後)都有完美精確的三維標註,不存在任何歧義,而且可以無限擴展生成新數據。用於訓練的GSI-Syn-Train包含了10500個樣本,涵蓋多種操作類型和多種場景,且與測試集嚴格分離。
---
四、四把尺子:怎麼判斷AI改的圖"合不合格"
有了數據集,還需要一套評測標準。研究團隊設計了四個互補的評估維度,像是從四個不同角度給AI生成的圖片打分。
第一個維度叫**指令合規性**,判斷AI改出的圖片是否滿足指令的基本語義要求。比如指令說"向左移動",AI生成的圖片裡那個物體確實在左邊嗎?這是一個"通過/不通過"的二元判斷,允許有合理的誤差範圍,不要求精確到毫米。
第二個維度叫**空間精確度**,只對通過了合規性檢查的樣本進行計算,測量幾何精度。比如指令說移動15厘米,AI實際生成的位移是多少?旋轉角度的偏差有多大?這些誤差被匯總成一個綜合的精確度分數,分數越高代表越精準。
第三個維度叫**編輯局部性**,檢查AI在修改目標物體的同時,有沒有"誤傷"其他區域。比如只需要移走一個花瓶,但AI順手把旁邊的書也動了,或者把背景渲染得面目全非——這就是局部性差的表現。評測方法是用目標物體的三維邊框作為遮罩,計算遮罩外區域在修改前後的視覺相似度。分數越高,說明非目標區域保持得越完整。
第四個維度叫**外觀一致性**,由Qwen3-VL-235B這個大模型擔任"視覺檢察官",檢查被操作的物體在移動/旋轉/縮放之後,外觀是否保持一致——顏色、紋理、類別有沒有變化?如果是移除操作,就檢查被移除位置的背景修補得自不自然,有沒有殘留痕跡或明顯拼接感。
在正式計算指令合規性和空間精確度之前,系統還會先過一道"局部性門檻"——如果AI生成的圖片與原圖幾乎毫無差別(說明AI根本沒有執行操作),或者差別過於劇烈(說明AI把整張圖都改了),就會直接排除,不計入成績。合成數據的門檻比真實數據更嚴格,因為模擬環境下的操作效果理應更精確可控。
---
五、九位選手同台競技,結果如何?
研究團隊選了九個當前最先進的AI模型來參加這場空間智能大考,包括七個開源模型(BAGEL、Anyedit、Uniworld、Ultra、Qwen-Image-Edit、Omnigen2、Emu3.5)和兩個商業閉源模型(NanoBanana和GPT-image)。
總體來看,成績不太好看。
在GSI-Syn-Tabletop這個桌面操作子集上,商業閉源模型NanoBanana平均得分37.03,GPT-image是33.97——在這些選手裡算是最高的,但絕對值也相當有限。更有意思的是,兩個商業模型在GSI-Real真實場景上的表現(33.52和34.70)居然只跟開源模型Qwen(43.44)和Emu3.5(43.52)差不多,甚至還略遜一籌。這說明商業模型雖然生成圖片的整體質量很高,但在需要精確三維幾何理解的空間操作上,並沒有明顯優勢。
在開源模型里,Emu3.5表現最強,在GSI-Real上平均達到43.52,各個維度都相對均衡。研究團隊分析認為,這可能得益於Emu3.5在影片數據上的訓練——影片天然包含時序幀之間的視角和空間變化,間接積累了一些三維空間的先驗知識。
相比之下,Uniworld、Ultra和Omnigen2等通用模型表現差距顯著,部分模型的指令合規性或外觀一致性分數極低,說明它們很難理解和執行結構化的空間操作指令。
從質性分析來看,能執行的操作類型也有明顯規律。幾乎所有模型在"移除物體"這類操作上表現最好,因為"刪掉某個東西然後修補背景"對AI來說相對容易。但旋轉、精確移動這類需要明確理解三維幾何的操作,大多數模型都力不從心。Emu3.5在移除操作上做得最乾淨,背景修補最自然。AnyEdit則經常出現"原封不動不執行"或"改了視覺屬性但位置沒變"的問題。BAGEL有時候會把"把物體向左移"理解成"攝像機向左平移",產生完全不同的視覺效果。Qwen和Emu3.5在識別"最左邊的"、"最前面的"這類參照性描述時比較可靠,但偶爾也會多刪一些不該刪的內容,說明細粒度的空間定位仍然是挑戰。
---
六、用模擬數據"練功",真實場景也跟著受益
光發現問題還不夠,研究團隊還想看看能否通過訓練來改進這種能力。他們選擇了BAGEL作為基礎模型,用GSI-Syn-Train(10500個合成訓練樣本)對它進行微調,然後分別在合成測試集和真實數據集上評測改進效果。
結果相當令人振奮。
在GSI-Syn-Tabletop上,微調後的模型平均得分從26.59躍升到48.74,提升了22.15分——幾乎翻倍。在GSI-Real真實場景上,平均得分從28.46提升到36.28,提升了7.83分。其中,編輯局部性提升最多(+9.22分),外觀一致性和指令合規性也分別提升了8.25和8.16分,說明模型不僅學會了更精準地執行操作,還學會了更好地保護非目標區域並維持物體外觀。
從合成數據到真實場景的遷移能力尤其值得關注——畢竟訓練數據全部來自模擬器,測試用的真實照片裡的光照、紋理、視角變化都和模擬環境大相徑庭。但提升確實發生了,說明從模擬環境中學到的幾何推理能力是可以泛化到真實世界的。
在GSI-Syn-Room室內場景子集上,提升幅度(+7.05分)比Tabletop更小,研究團隊認為原因在於室內場景比桌面場景複雜得多——更多物體、更複雜的遮擋關係、更大的空間範圍——這些都加大了全局空間推理的難度,也揭示了當前方法還有改進空間。
---
七、意外收穫:練習"改圖",居然讓AI更會"看圖"
這項研究最出人意料的發現出現在最後階段。研究團隊把微調後的模型拿去測試兩個純粹的空間理解基準——OmniSpatial和SAT-Real,看看專注於生成任務的訓練會不會順帶提升AI對空間的理解能力。
請注意,訓練時完全沒有給模型任何理解類的訓練數據,只有純粹的圖像編輯任務——輸入一張圖和一條指令,輸出一張改好的圖。
但結果是:空間理解能力確實提升了。
在OmniSpatial測試中,BAGEL微調後的總體準確率從41.55%提升到42.07%。分項來看,動態推理(+0.95%)、空間交互(+2.00%)和視角理解(+1.07%)都有提升。唯一下降的是複雜邏輯推理(-3.17%),研究團隊解釋這是因為訓練數據里完全沒有邏輯推理相關的內容,這部分能力沒有得到強化,可能因為資源分配而略有下降。
在SAT-Real測試中,整體準確率從65.33%提升到69.33%,提升了4個百分點。其中目標定向(GoalAim,從75.00%提升到85.29%)和自我中心運動(EgoM,從60.87%提升到73.91%)的提升最為突出。這兩類能力恰恰與生成任務中的視角理解和方向推理高度相關。
這個發現在理論上是很重要的。長期以來,AI領域的研究者傾向於認為理解和生成是兩條相對獨立的路——你用理解數據訓練理解能力,用生成數據訓練生成能力。但這項研究表明,對於空間智能來說,生成式的訓練可以作為一種"練習媒介",幫助模型內化三維空間的結構和規律,進而改善對空間關係的感知和判斷。
打個比方:一個從未動手組裝過積木的孩子,可能比一個經常搭積木的孩子更難想像積木在空間中的旋轉效果。"動手做"的經驗在某種程度上加深了空間直覺,即便你問的問題和"動手"沒有直接關係。AI似乎也有類似的機制。
---
歸根結底,浙江大學這支團隊做了一件很有價值的事:他們不滿足於用"問答題"來衡量AI的空間智能,而是設計了一套更貼近真實能力的"動手題"——要求AI不只是說出空間關係,而是在圖像中正確地執行空間變換。GSI-Bench的出現填補了這個評測空白,讓我們第一次有了系統衡量這種能力的工具。
測試結果顯示,現有最先進的模型在這類任務上普遍表現一般,商業大模型的優勢也遠不如在其他任務上那麼顯著。而通過在模擬數據上微調,不僅可以提升生成式空間智能本身,還能附帶改善空間理解能力——這為未來研究提供了一個新思路:生成和理解或許不是非此即彼的兩條路,而是可以相互促進的兩種練習方式。
這項研究對普通用戶的意義,可能要等到幾年後才會真正顯現——當你打開手機上的圖像編輯工具,對著一張家居照片說"把那盞落地燈移到沙發右邊一米",然後AI真的準確無誤地生成了你想要的效果,而不是把燈變成一堆像素噪點。那時候,你手邊的工具里,或許就有這項研究的一份貢獻。
若有興趣深入了解技術細節,可通過arXiv編號2604.20570查閱完整論文。
---
Q&A
Q1:GSI-Bench和現有的AI圖像理解基準測試有什麼不同?
A:GSI-Bench專門測試AI能否通過生成圖像來正確執行空間操作,比如"把桌上的杯子向左移動20厘米",然後檢查AI生成的新圖片是否真的做到了。現有的大多數基準測試只考察AI回答空間相關問題的能力,比如問"桌子左邊是什麼物體",但不要求AI真正改變圖像。兩者的區別類似於"背誦交通規則"和"實際開車",後者更能體現真實能力。
Q2:為什麼用模擬環境的數據訓練AI,在真實照片上也能有效果?
A:模擬環境的核心優勢是可以生成精確標註的三維數據——每次空間操作的前後狀態都有精確的幾何記錄。AI通過大量練習這些操作,學到了三維空間變換的內在規律,這些規律是普遍成立的,不依賴於場景是真實拍攝還是電腦渲染。好比學游泳時在標準泳池裡練習的技巧,到了海里同樣適用,因為水的物理性質是一樣的。
Q3:為什麼改圖訓練能順帶提升AI看圖的空間理解能力?
A:研究團隊認為,生成式的空間訓練迫使AI在內部建立更精確的三維空間表徵。要正確地"把物體向右移動15厘米並生成圖像",AI必須真正理解物體在三維空間中的位置和運動方式,而不能只靠表面的視覺模式匹配。這種內化的空間理解反過來也幫助AI在純理解任務中表現更好,就像經常動手畫地圖的人,往往也更善於在腦海中想像方向和距離。






