宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

浙大團隊突破AI「空間智力」難題:機器終於學會在動態世界中「看懂」位置關係

2025年12月15日 首頁 » 熱門科技

這項由浙江大學趙洲教授團隊領導的突破性研究發表於2025年10月的arXiv預印本平台,論文編號為arXiv:2510.18873v1。研究團隊還包括來自阿里巴巴集團和上海AI實驗室的研究人員,他們共同解決了一個困擾AI領域已久的核心問題:如何讓機器在動態變化的3D世界中準確理解空間關係。

想像一下你正在開車,前方有一輛紅色轎車正在左轉,同時你自己也在向右變道。在這個複雜的動態場景中,人類能夠輕鬆判斷自己與那輛紅色轎車的相對位置變化,預測兩車是否會相撞,並做出相應的駕駛決策。這種看似簡單的能力實際上涉及了極其複雜的空間智能:你需要同時追蹤自己的運動、其他物體的運動,以及兩者之間不斷變化的空間關係。

然而,當前最先進的AI系統在面對這類動態空間推理任務時卻表現糟糕。現有的視覺語言模型雖然在靜態圖像理解方面表現出色,但一旦進入動態3D場景,它們就像突然失明的司機一樣手足無措。這些AI系統往往會產生嚴重的"空間幻覺",比如明明是向前行駛卻被識別為後退,或者將自己的運動誤認為是其他物體的運動。

為了徹底解決這個問題,浙大研究團隊提出了"動態空間智能"這一全新概念,並構建了目前最全面的動態空間智能評測基準DSI-Bench。這個基準包含了近1000個精心設計的動態場景影片和超過1700個人工標註的問答對,涵蓋了觀察者和被觀察物體的九種不同運動模式組合。

**一、什麼是動態空間智能:從靜態照片到動態世界的跨越**

傳統的空間智能研究就像讓人看著一張張靜態照片回答"蘋果在桌子的左邊還是右邊"這樣的問題。而動態空間智能則要複雜得多,它需要AI同時理解三個關鍵要素:觀察者(比如攝影機或人眼)在3D空間中的運動、被觀察物體的運動軌跡,以及兩者之間相對位置關係的實時變化。

研究團隊將這種能力比作一場複雜的空間舞蹈。在這場舞蹈中,舞者(觀察者)和舞伴(被觀察物體)都在不斷移動,而舞台(3D場景)也可能在旋轉。真正的挑戰在於,舞者需要始終知道自己與舞伴的相對位置,即使兩人都在快速移動且舞台也在變化。

這種動態空間智能包含了三個核心任務類型。第一類是物體-場景任務,主要考察物體與周圍環境的空間關係變化,特別是當觀察者處於運動狀態時這種關係如何演變。第二類是觀察者-場景任務,重點評估系統追蹤觀察者自身在3D空間中位置變化的能力。第三類是觀察者-物體任務,專門測試對觀察者與特定物體之間相對關係的理解,比如距離是在拉近還是拉遠,朝向是否發生改變。

為了確保評測的公平性和科學性,研究團隊還設計了一套巧妙的"時空翻轉"策略。這就像給同一個舞蹈動作拍攝多個角度的影片:正常播放、水平翻轉、時間倒流、以及水平翻轉加時間倒流。通過這種方式,研究團隊能夠識別AI系統是否真正理解了空間關係,還是僅僅記住了某些視覺模式。

**二、構建史上最全面的動態空間智能測試場:DSI-Bench的誕生**

建立一個有效的AI測試基準就像設計一場全面的駕照考試。你不能只讓考生在停車場裡直線行駛,而是要設置各種複雜的交通場景:十字路口、環島、山路、雨天駕駛等等。DSI-Bench正是這樣一個"AI空間智能駕照考試場"。

DSI-Bench的數據來源極其豐富多樣。研究團隊從CameraBench相機運動數據集、Kinetics-700物體運動數據集、SynFMC合成運動控制數據集等多個權威數據源中精心挑選影片片段。為了增加運動模式的多樣性,他們還從LLaVA-178K數據集和其他在線資源中補充了大量素材。這種多元化的數據收集策略確保了測試場景能夠覆蓋現實世界中可能遇到的各種複雜情況。

在數據預處理階段,研究團隊採用了嚴格的質量控制流程。他們使用PySceneDetect工具將長影片分割成獨立的場景片段,然後利用SpatialTrackerV2模型過濾掉那些運動不規律或畫面抖動嚴重的影片片段。最後,人類專家進行最終篩選,確定每個影片的起始和結束時間點。所有影片都被標準化為480p解析度,過短的片段會被放慢至3秒鐘的時長。

問答對的生成過程更是體現了研究團隊的細緻用心。他們首先人工標註每個影片中觀察者和被觀察物體的運動模式,然後基於這些標註使用模板化方法構建相機-場景和物體-場景類型的問答對。對於部分影片,研究團隊還額外標註了相對距離變化資訊,生成相對距離類問答對。所有被觀察物體都被標註了朝向資訊,使得相對朝向類問答對的構建成為可能。

為了避免動態場景中參考點變化帶來的歧義,研究團隊遵循了先前研究的慣例,將3D參考點固定在每個影片中觀察者或被觀察物體的初始位置。所有問答對都經過了人類專家的審核、篩選和優化,確保表述清晰無歧義。

**三、時空翻轉策略:揭露AI的"空間幻覺"**

如果說傳統的AI測試就像給學生出一道數學題,那麼研究團隊設計的時空翻轉策略就像是給同一道題出了四個不同的變體,來測試學生是否真正理解了數學原理,還是只是死記硬背了答案。

這套策略的巧妙之處在於它能夠系統性地暴露AI系統的偏見和錯誤模式。對於每個原始影片,研究團隊都會生成四個變體:標準版本、水平鏡像版本、時間倒流版本,以及水平鏡像加時間倒流版本。這就像是從四個不同角度觀察同一個物理現象,真正理解空間關係的系統應該在所有版本中都給出正確且一致的答案。

舉個具體例子,假設原始影片顯示觀察者向右轉,一輛汽車向前行駛。在水平鏡像版本中,觀察者應該是向左轉,汽車仍然向前行駛。在時間倒流版本中,觀察者應該是向左轉(因為原來的右轉被時間倒轉),汽車向後行駛。在水平鏡像加時間倒流版本中,觀察者向右轉,汽車向後行駛。

相應的問答選項也會根據變換規則進行對稱調整。"向前運動"在時間倒流後變成"向後運動","順時針旋轉"在水平翻轉後變成"逆時針旋轉"。這種基於規則的對稱調整確保了真值標籤在所有變體中保持一致性。不過,由於影片倒流會改變參考幀(從第一幀變為最後一幀),某些樣本無法僅通過規則替換處理,這些情況需要人類專家逐一檢查和修正。

**四、震撼發現:當前AI系統的三大致命缺陷**

研究團隊對14個主流AI模型進行了全面測試,結果令人震驚。這些包括GPT-4o、GPT-5、Gemini-2.5-Pro等頂級商業模型,以及Qwen2.5-VL、InternVL-3.5等開源模型在內的AI系統,在動態空間推理方面的表現都遠低於預期。

第一個致命缺陷是"前進偏見"。研究團隊發現,幾乎所有AI模型都過度傾向於選擇包含"向前"的答案選項,即使實際情況並非如此。通過統計分析,模型選擇"向前"選項的頻率遠遠超過了真實標註中"向前"出現的比例。這就像一個總是認為所有車輛都在向前開的交通觀察員,顯然無法勝任實際的交通監控工作。

更有趣的是,研究團隊通過分析發現,即使面對明顯靜止的雕像,某些AI模型仍然會堅持認為雕像在"向前移動"。這種現象揭示了一個深層問題:AI模型可能過度依賴了訓練數據中的統計偏見,而沒有真正學會從視覺資訊中推斷運動狀態。

第二個重大缺陷是AI系統無法區分旋轉和平移這兩種完全不同的運動類型。在人類看來,這就像分不清原地轉圈和向前走路的區別。研究團隊發現,當AI嘗試判斷觀察者的運動方向時,它們經常通過分析"場景的哪一部分進入了視野"來進行推理。然而,AI往往無法判斷這種視野變化是由觀察者的旋轉引起的,還是由觀察者的位置移動造成的。

這種混淆在實際應用中可能導致嚴重後果。比如在自動駕駛系統中,如果AI無法準確區分車輛是在轉彎還是在變道,就可能做出錯誤的駕駛決策。

第三個也是最根本的缺陷是"耦合運動推理"。簡單來說,就是AI無法獨立分析觀察者和被觀察物體的運動,而是將兩者的運動混為一談。這就像一個舞蹈觀眾無法分別判斷男女舞伴各自的動作,只能看到一團模糊的運動。

研究團隊識別出了兩種典型的耦合推理模式。第一種是"相對運動誤導",即AI在推斷觀察者運動時,錯誤地用被觀察物體的朝向和運動來代替觀察者的實際運動狀態,就好像認為觀察者和物體總是保持相對靜止。第二種是"參考系錯誤泛化",即AI將觀察者和物體之間的相對運動錯誤地推廣到整個場景參考系中。

**五、專業模型的意外表現:幾家歡喜幾家愁**

有趣的是,那些專門為3D視覺任務設計的專業模型在某些方面表現出了令人意外的優勢。比如SpatialTrackerV2和VGGT這樣的3D視覺專家模型,在相機位置估計任務上表現相當穩健,在對稱性驗證測試中的性能下降幅度遠小於通用視覺語言模型。

這些專業模型的優勢主要體現在它們對經典幾何約束的有效利用上。當面對需要精確相機姿態估計的任務時,這些模型能夠通過多視角幾何、特徵點匹配等傳統電腦視覺技術獲得可靠的結果。它們就像是訓練有素的測量員,即使在複雜環境中也能通過專業工具準確測量位置和距離。

然而,這些專業模型也暴露出了明顯的局限性。當場景中同時存在觀察者運動和前景遮擋時,傳統的特徵點追蹤容易失效,導致束調整(bundle adjustment)階段的不穩定。更重要的是,這些模型在估算觀察者與物體間相對距離方面表現不佳,這可能會間接影響物體運動估計的準確性。

**六、推理能力的悖論:為什麼"思考"並沒有幫助AI**

研究團隊還進行了一個有趣的對比實驗:讓AI模型在直接回答和先進行推理再回答兩種模式下完成相同任務。結果出人意料,大部分模型在"思考"後的表現並沒有明顯改善,有些甚至變得更差。

這個現象就像讓一個不會游泳的人先在岸上分析游泳理論再下水,結果發現理論知識並沒有真正幫助他學會游泳。深入分析發現,當前AI模型的推理過程主要依賴於視覺編碼器提取的資訊,而語言推理無法彌補視覺感知階段的錯誤。

更糟糕的是,推理過程有時還會引入額外的偏見。AI模型在推理時往往依賴常識知識,比如"汽車通常向前行駛"或"人們通常朝前看",這些常識在特定情況下可能與實際觀察到的現象相矛盾,從而導致錯誤的結論。有些模型甚至無法正常終止推理過程,而是一直生成無關內容直到達到輸出長度限制。

**七、模型規模的陷阱:更大不一定更好**

在模型規模與性能的關係上,研究揭示了一個令人深思的現象。在單樣本準確率測試中,較大的模型確實表現更好。比如Qwen2.5-VL的72B版本比32B版本高出2.8個百分點,InternVL3.5的38B版本比8B版本高出2.69個百分點。

但是,當使用更嚴格的組別準確率測試(要求在四個對稱變體中至少答對三個)時,情況卻完全逆轉了。較大的模型在這種測試中反而表現更差,這表明雖然大模型能夠捕捉更細緻的細節,但它們並沒有消除空間感知和推理中的固有偏見。

這就像一個記憶力很好但邏輯思維有問題的學生,他能夠記住更多的細節,在某些題目上表現更好,但在需要邏輯一致性的綜合測試中反而暴露了更多問題。這個發現提示我們,當前AI模型的核心問題可能不在於模型規模,而在於更深層的架構和訓練方法。

**八、未來之路:向真正的空間智能邁進**

這項研究不僅揭示了當前AI系統在動態空間理解方面的嚴重不足,更為未來的研究指明了方向。研究團隊認為,實現真正的動態空間智能需要從多個方面進行根本性突破。

首先,需要重新設計AI模型的視覺感知架構,使其能夠更好地分離和獨立處理觀察者運動、物體運動和場景結構這三個關鍵要素。這就像為AI大腦專門設計不同的"神經迴路"來處理不同類型的空間資訊。

其次,需要開發更加平衡和多樣化的訓練數據集,減少當前數據中普遍存在的運動模式偏見。這要求研究者們像生態學家一樣,仔細調配不同類型運動樣本的比例,確保AI系統能夠學到真實世界的複雜性。

最後,可能需要將傳統電腦視覺的幾何約束與現代深度學習方法更好地結合,開發出既能利用經典理論又能適應複雜現實場景的混合方法。

DSI-Bench作為目前最全面的動態空間智能評測基準,將為研究社區提供一個標準化的測試平台。研究團隊計劃在論文發表後公開所有數據和評測代碼,讓更多研究者能夠參與到這個重要問題的解決中來。

通過這項研究,我們看到了AI在理解動態3D世界方面還有很長的路要走。但正如任何科學進步一樣,認識到問題的存在是解決問題的第一步。隨著更多研究者的加入和技術的不斷進步,我們有理由相信,真正具備動態空間智能的AI系統終將出現,為自動駕駛、機器人導航、增強現實等領域帶來革命性的突破。

Q&A

Q1:DSI-Bench是什麼,它解決了什麼問題?

A:DSI-Bench是浙江大學團隊開發的動態空間智能評測基準,包含近1000個動態場景影片和1700多個問答對。它專門測試AI系統在動態3D場景中理解空間關係的能力,解決了當前缺乏標準化動態空間推理測試工具的問題,揭露了現有AI模型在這方面的嚴重不足。

Q2:為什麼當前的AI模型在動態空間理解方面表現很差?

A:研究發現AI模型存在三大致命缺陷:一是"前進偏見",過度傾向於選擇"向前"的答案;二是無法區分旋轉和平移兩種不同運動類型;三是"耦合運動推理",無法獨立分析觀察者和被觀察物體的運動。這些缺陷導致AI在動態場景中產生嚴重的"空間幻覺"。

Q3:動態空間智能對日常生活有什麼影響?

A:動態空間智能是自動駕駛、機器人導航、增強現實等技術的核心能力。比如在自動駕駛中,車輛需要同時理解自己的運動、其他車輛的運動以及相對位置關係的變化。這項研究的突破將直接推動這些技術的安全性和可靠性提升,最終讓AI更好地服務於人類的日常生活。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新