清華、北航、上海AI實驗室聯手打造：當AI遇上「導航盲區」，機器能否像人類一樣記住走過的路？

這項由清華大學、北京航空航天大學與上海人工智慧實驗室聯合開展的研究，於2026年6月發表，論文編號為arXiv:2606.03890。有興趣深入了解的讀者可通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

**一場關於"記憶"的考驗**

假設你戴著一副智能眼鏡在一棟陌生的大樓里轉悠。你進了廚房，然後穿過走廊，路過了浴室，再繞進客廳。這時候，有人問你："剛才那個白色的雕像在哪個方向？"或者"廚房和客廳之間是直接相連的，還是需要經過走廊？"

對於人類來說，這不算太難——我們的大腦會自動記錄行走路徑，形成一張心理地圖。但對於人工智慧，尤其是現在炙手可熱的多模態大語言模型（也就是那些既能看圖又能看影片還能對話的AI），這件事卻出奇地困難。研究團隊正是圍繞這個核心難題，構建了一個名為OVO-S-Bench的全新測試平台，目的是檢驗AI到底能不能在連續的第一人稱影片流中，真正理解空間、記住空間、推理空間。

這個問題之所以重要，是因為我們正在走向一個充斥著智能設備的世界：家用機器人要幫你找東西、AR導航眼鏡要引導你回到剛才經過的路標、自動駕駛汽車要在移動中持續理解周圍的空間結構。所有這些應用的核心能力，都是"在影片流動的過程中，隨時理解空間"。而現有的AI測試工具，偏偏在這方面留了一個巨大的空白。

**一、現有考題的"漏洞"——為什麼舊測試不夠用**

在理解這項研究的突破之前，先得弄清楚現有測試有什麼問題。

目前學術界對AI空間理解能力的測試，大體分兩類。第一類是"空間理解測試"，比如給AI看一張圖或者一段完整的影片，然後問它"桌子上有什麼東西"、"兩個房間之間怎麼連接"。這類測試的毛病在於，AI可以反覆翻看影片的任意部分，就像學生開卷考試一樣——想看哪段看哪段，隨時可以回頭檢查。這和真實世界裡的情況完全不同，因為真實世界裡資訊是一去不復返的。

贊助商廣告

第二類是"流式影片測試"，也就是要求AI只能看已經播放過的部分，不能往後看。但這類測試關注的是"發生了什麼事"，比如"第幾分鐘有人推了門"，或者"影片裡出現了幾次籃球"。空間結構並不是這類測試的重點。

結果就是，這兩類測試都繞開了一個核心問題：AI能否在只看過一次影片、不能回頭的情況下，建立起對空間的持續理解？這個能力，研究團隊把它叫做"流式空間智能"。

OVO-S-Bench的誕生，就是為了填補這個空白。它既要求AI只能看已經播放過的影片片段（不能作弊往後看），又專門考察空間理解，而且考察的難度從最簡單的"當前畫面里有什麼"一直延伸到最複雜的"這棟樓的整體布局是什麼樣的"。

**二、四個難度層次——從看當下到畫地圖**

OVO-S-Bench的問題按難度分成四個層次，可以用一個"記路"的比喻來理解。

最簡單的第一層，叫做"即時感知"，對應的是你剛走進一個房間時的直接觀察。研究團隊把它叫做L1，全稱是"瞬時自我中心感知"。這一層的問題只需要AI看清楚當前畫面就能回答，比如"相機大概離地面多高"、"那棵綠色大植物靠在哪個表面上"、"相機現在是在向前移動還是在旋轉"。這是最基礎的空間感知，類似於你睜開眼睛就能感受到的資訊。

第二層難度上升了一個台階，叫做"時空情境追蹤"，研究團隊稱之為L2。這時候AI需要記住已經消失在畫面之外的東西。比如你問它"現在看到的房間，和三分鐘前的是同一個嗎"，或者"相機背後現在應該是什麼東西"，或者"這個走廊已經經過幾次了"。這些問題的答案不在當前畫面里，必須從記憶中提取。這就像你繞過一棟大樓之後，需要靠記憶判斷入口在哪個方向。

第三層更進一步，叫做"空間模擬與推理"，也就是L3。AI不只是要記住和查詢，還要在腦子裡做一些想像性的操作。比如"如果把電視機旋轉90度，它能不能從左邊的窗戶搬出去"，或者"從A區到檯球桌，哪條路線最合理"，或者"上次看到書架的時候，和這次相比有什麼新東西出現了"。這類問題需要AI在腦子裡模擬物體的形狀、旋轉、搬運，或者規劃一條路徑，而不僅僅是回憶某個事實。

贊助商廣告

第四層是最難的，叫做"整體拓撲地圖"，研究團隊稱之為L4。這要求AI把整段影片裡經過的所有地方整合成一張"鳥瞰圖"，然後回答關於全局布局的問題，比如"如果進門時面朝北方，那麼F房間相對於G房間是在哪個方向"，或者"A區和走廊A之間是直接相連還是需要經過其他區域"，或者"根據影片，下面哪張鳥瞰路線圖和實際行走路徑最吻合"。這一層的證據可能分散在整段影片的各個角落，AI必須把這些碎片拼成一幅完整的地圖，而且這幅地圖是客觀的、不依賴於你站在哪裡看的那種。

這四個層次，從"睜眼看"到"腦子裡畫地圖"，難度是層層遞進的。證據需要覆蓋的時間範圍也越來越長：第一層的證據平均只需要2秒，第二層大約37秒，第三層也是2秒（因為很多模擬問題只需要看當前的物體），而第四層的證據平均長達279秒，幾乎覆蓋整段影片。

**三、這套題是怎麼做出來的——804個人小時的心血**

OVO-S-Bench不是機器自動生成的，而是完全由人工標註的。這一點值得單獨說說，因為它保證了題目的質量和嚴肅性。

研究團隊招募了12名有三維電腦視覺背景的研究人員作為標註員。每個人既要負責出題，也要負責審查別人出的題——這種"出題者同時也是盲審者"的機制，有效防止了主觀偏差。整個標註過程大約花費了804個人小時，相當於一個人不間斷工作約一個月。

影片素材來自9個公開數據集，覆蓋了五種不同的場景：室內步行遊覽（RoomTour3D數據集貢獻了最多的804道題）、以第一人稱拍攝的日常活動（Ego4D）、戶外世界場景（Sekai和OmniWorld）、駕駛影片（CODa和Honda HDD）以及三維標註環境（ARKitScenes和VSI-Bench）。最終形成了348段源影片、1680道問題的完整測試集，每道題平均對應的影片前綴長達8.8分鐘。

每道題都包含幾個關鍵要素：問題本身、若干選項、正確答案、"查詢時間戳"（也就是AI被問到這個問題的時間點，AI只能看這個時間點之前的影片），以及"證據區間"（也就是回答這道題所需的最短影片片段的時間範圍，僅用於驗證和分析，不作為AI的輸入）。

贊助商廣告

標註團隊還專門做了一系列"防作弊"處理。他們用一個純文字版本的AI（不給它看影片）來測試每道題，如果AI光靠猜測常識就能答對，這道題就會被修改或刪除，因為這說明題目存在"捷徑"。此外，還有獨立的第二名標註員在不看原始標註的情況下重新審核每道題，檢查答案是否正確、證據區間是否充分。最終通過這一系列嚴格篩查的題目，才會被收錄進測試集。兩位標註員的一致性評分達到了0.87，說明題目質量相當可靠。

第四層的題目還有一個特殊的製作流程：鳥瞰圖選項中的正確圖，是直接從源影片的絕對坐標和元數據渲染出來的；而干擾選項則是通過擾動路徑形狀、朝向或訪問順序生成的，外觀風格和正確圖完全一樣，確保AI不能靠"哪張圖畫得更漂亮"來作弊。

**四、38個AI的大考——沒有一個合格**

測試團隊在這套題上評測了38個不同的AI系統，包括閉源商業模型、開源通用模型、專門針對影片流優化的模型，以及針對空間理解進行專項微調的模型。同時，還專門請了五名真實的人類參與者作為基準對比，而且分兩種條件進行測試：一種是"流式條件"，參與者只能看問題時間點之前的影片，不能回頭；另一種是"離線條件"，參與者可以隨時暫停、回放整段影片。

人類在流式條件下的平均正確率是86.6%，在離線條件下是92.2%。而38個AI系統里表現最好的，是谷歌的Gemini-3.1-Pro，得分只有59.2%。排名第二的開源模型Qwen3-VL-235B-A22B是53.6%。兩者都與人類水平相差27到33個百分點。

隨機猜測的得分是31.3%，純文字猜測（完全不看影片，只靠問題和選項的文字）是37.1%。所有通用模型和商業模型的得分都超過了這兩個基準，說明它們確實在用視覺資訊，而不是在蒙題。但它們與人類的差距，清楚地說明了真正的空間理解能力還差得很遠。

四個難度層次之間，模型的表現也很有規律。第四層（整體拓撲地圖）是最難的，34個系統里有28個把第四層列為得分最低的一層，和前三層相比平均低9.3個百分點。即使是最大的開源模型，這個差距也超過了10個百分點。唯一的例外是那些第一層得分本來就很低的模型，它們第四層的得分相對反而不算最差，但這並不意味著它們的地圖能力強，只是它們連基本的當前畫面都看不明白。

贊助商廣告

閉源商業模型整體比最好的開源模型高出約5.6個百分點，但這個差距比人們通常預期的要小——在其他影片和多模態測試上，商業模型通常領先開源模型超過10個百分點。而且這個差距在不同層次上分布不均：在需要跨幀記憶的第二層，閉源模型領先5.9個百分點；但在第三層（空間模擬），最好的開源模型反而超過了Gemini-3.1-Pro，高出5.3個百分點。閉源商業模型內部差異也相當大：GPT-5.4得50.9%，Grok-4.1-Fast只有43.7%，和Gemini-3.1-Pro的59.2%相差15個百分點。

**五、"專項強化訓練"為什麼反而拖了後腿**

這是整個研究里最出人意料的發現之一。

研究團隊評測了兩類"專門優化過"的模型：一類是專門針對影片流優化的流式影片模型，另一類是針對空間理解進行大量微調訓練的空間模型。按照直覺，這些"專科生"應該比"通才"更擅長這類考題才對。但實際情況恰恰相反。

15個專項優化模型里，有13個的總體得分低於它們各自的基礎版本（也就是原始的、沒有經過專項訓練的模型）。整體來看，專項訓練平均帶來了2個百分點的下降，最嚴重的情況是Flash-VStream，它的得分比基礎模型低了整整18.4個百分點。

更具體地看，第四層（整體拓撲地圖）是受損最嚴重的層次：15個專項模型里有13個在這一層的得分低於基礎版本，平均損失6.1個百分點。第一層（當前畫面感知）偶爾會有所提升，比如VST-7B-RL在第一層比基礎模型高了4.9個百分點，但第二層和第四層的表現同時大幅下降。

為什麼會這樣？研究團隊的分析是：流式影片模型的訓練目標是壓縮記憶來處理敘事性問答，而空間微調模型的訓練數據是離散的單幀圖像問答。這兩種訓練方式都沒有真正練到"在連續的第一人稱影片流中維持持久的空間狀態"這個核心能力，所以訓練之後，模型在這個維度上的能力不但沒有增強，反而因為過度適應了特定的訓練場景而在更全面的測試中表現變差。

贊助商廣告

研究團隊還對三個使用"記憶壓縮"機制的模型做了深入分析，檢查這些模型在回答問題時，實際上保留了影片的哪些部分。結果發現，在第四層問題上，這些模型保留的證據區間覆蓋率最低，在14%到42%之間，而第一層的覆蓋率達到了60%到76%。也就是說，壓縮機制在處理需要全局空間資訊的問題時，會丟掉最關鍵的那部分證據。

但更有趣的是：即便一個模型保留了更多證據，它的答對率也不會相應提高。研究團隊計算了"保留證據比例"和"答題正確率"之間的相關係數，三個模型的結果都接近於零（在-0.07到0.00之間）。這說明，模型的瓶頸不在於看沒看到證據，而在於就算看到了，也不知道該怎麼把它整合成正確答案。

**六、"多想想"是否有用——思維鏈的雙刃劍效應**

研究團隊還測試了"思維鏈"模式，也就是讓AI在給出答案之前先一步一步地推理，把思考過程寫出來，就像讓學生先打草稿再填答案。

結果是好壞參半。從好的方面來說，思維鏈在第二層（時空情境追蹤）平均帶來了3.9個百分點的提升，而且9個測試模型里有8個在這一層因為思維鏈受益。這說明，對於需要整合多個時間點資訊的問題，明確地寫出推理過程確實有幫助。

但在第一層（當前畫面感知）上，思維鏈反而平均帶來了1個百分點的下降，9個模型里有6個因此變差。這個現象的解釋是：如果畫面資訊已經足夠清晰，額外的推理反而會讓AI"想多了"，把本來正確的直接感知給繞彎了。

研究團隊還專門分析了那些用了思維鏈但還是答錯了的案例，把錯誤分成五種類型：沒得出結論（AI推理到一半卡住了，或者超出了思考token上限）、非視覺錯誤（AI根本沒看影片，直接用常識推斷）、視覺內容錯誤（AI看了影片，但對影片內容做出了錯誤的解讀）、方向錯誤（物體認對了，但左右或前後搞反了）、時間綁定錯誤（事實記對了，但張冠李戴，記成了錯誤的時間點或場景）。

贊助商廣告

在所有錯誤類型里，"非視覺錯誤"和"視覺內容錯誤"合計占了60%到80%的比例，說明AI的主要問題是沒有真正把推理和影片內容錨定在一起，而是在"空想"。Qwen3.5的思維鏈有一個極端情況：它把32000個思考token的上限全部耗盡，卻還是沒能寫出一個答案字母，只好被直接記為"無結論錯誤"。

進一步分析各層級的錯誤分布，發現了兩個有意思的規律。第二層問題里，"時間綁定錯誤"的比例在8個模型里普遍達到17%到36%，遠高於其他層次（其他層都低於5.6%）。這和思維鏈在第二層最有幫助的發現相互呼應：這一層最核心的挑戰，恰恰是把一個事實和正確的時間點綁定在一起，明確的推理過程對此確實有效。而在第四層（整體拓撲地圖），錯誤類型出現了明顯的家族分化：GLM和Qwen3-VL系列傾向於不看影片、直接憑常識作答（"非視覺錯誤"占69%到85%）；而InternVL-3.5系列傾向於嘗試方向推理，但經常把方向搞反（"方向錯誤"占27%到30%）。這意味著第四層的瓶頸不是單一的，不同的AI有不同的卡點，沒有一個通用的修複方案。

**七、換不同的抽幀方式有用嗎——採樣策略的局限**

既然AI看的只是影片裡抽取的若干幀，那麼改變抽取方式，會不會顯著提高成績？

研究團隊測試了8種不同的抽幀策略。從最極端的"只看查詢時刻那一幀"到"均勻抽取256幀"，從"偏向近期幀的加權採樣"（60%的幀來自最近30秒，30%來自30秒到5分鐘之前，10%來自更早的部分）到"直接在標註的證據區間內抽幀的離線神諭"——這個"神諭"策略代表了最理想的情況，因為它知道答案在哪裡，專門從那段影片裡抽幀。

結果令人意外：換抽幀策略幾乎沒有效果。"神諭"策略在5個測試模型里，最多只比均勻128幀的默認策略高出0.3個百分點。把幀數從128增加到256，在7個有數據的模型里，變化範圍在-2.6到+0.3之間，也就是說多看幀有時候反而變差了。

贊助商廣告

"偏向近期幀"的加權策略在3個模型上超過了"神諭"，在另外2個模型上不如神諭。說明這種啟發式方法有時奏效，但並不穩定。

有一個有趣的模式："只看當前幀"的策略在第一層（當前畫面感知）比均勻128幀高出5到8個百分點，但在第二層（時空情境追蹤）卻低15到21個百分點。對於VST-7B-RL，這個差距更誇張：只看當前幀比均勻128幀在第一層高了12.4個百分點，但在第二層低了12.6個百分點。這是一個很清晰的"感知與記憶權衡"——如果你把所有幀都分配給當前畫面，你對當前的感知更精準，但你丟失了歷史資訊；如果你把幀分散到整個影片前綴，你獲得了更多歷史，但當前畫面的解析度降低了。

這個發現的意義是：AI在這套測試上與人類的27個百分點的差距，並不是因為"沒看到正確的幀"，而是因為就算給了正確的幀，它也不能有效整合這些資訊來形成空間理解。這是一個理解層面的問題，不是檢索層面的問題。

**八、越大越強嗎——規模擴展的極限**

研究團隊還專門分析了模型規模和性能之間的關係，對三個開源模型家族（Qwen3-VL、Qwen3.5和InternVL-3.5）的多個尺寸版本進行了對比。

第一層和第二層的表現確實隨著模型規模增大而提升，而且兩者的提升幅度基本同步，在任何規模下相差不超過3個百分點。第三層的提升更不穩定，有時隨規模增大而提升，有時反而下降，再回升，顯示出訓練數據組成對結果的影響比模型規模更大。

但第四層（整體拓撲地圖）的情況完全不同：三個模型家族的第四層得分，從最小規模到最大規模幾乎沒有變化，都在40%到46%之間徘徊。InternVL-3.5從最小版本到最大版本，第四層得分只變化了0.8個百分點（從39.7%到40.5%），參數量卻增加了60倍。而第四層的人類基準是79.2%，也就是說，即使是最大的模型，距離人類水平仍然差了約39個百分點，而且通過繼續增大模型規模，這個差距幾乎不會縮小。

贊助商廣告

這個發現非常重要：整體拓撲地圖能力的瓶頸，不是模型容量不夠，而是模型根本不具備整合第一人稱影片流來建立客觀空間表示的機制。簡單地堆砌更多參數，解決不了這個問題。

說到底，OVO-S-Bench揭示的是一個很根本的挑戰。我們現在擁有的AI，就像一個人雖然有很好的短期記憶和邏輯推理能力，但卻無法像真正在空間裡行走過的人那樣，把零散的視覺體驗轉化為一張可以隨時查詢的心理地圖。Gemini-3.1-Pro以59.2%的成績成為所有測試模型里的冠軍，但距離普通人類（86.6%）還差著27個百分點，距離可以悠閒地反覆翻看影片的人類（92.2%）差了33個百分點。

這不是靠更多的訓練數據、更大的模型、更聰明的抽幀策略就能輕易填平的差距。研究團隊認為，真正的解決方案可能需要AI具備某種持續的三維空間記憶機制，或者能夠在接收影片流的同時動態構建和更新內部空間地圖的能力。這些方向，對應的是3D感知記憶、測試時適應、世界模型想像、結構化空間圖譜等一系列正在研究中的技術路線。

這項研究的另一個意義是，它首次在真實的連續第一人稱影片上，用嚴格的流式協議，全面測試了從基礎感知到全局地圖構建的整個空間理解能力譜系。它不是為了證明AI很差，而是為了精確地指出AI哪裡差、差多少、靠什麼方法可能改善、靠什麼方法不會改善。這種清晰的能力邊界畫像，對於整個領域的下一步發展方向，有著切實的指導價值。

對於普通人來說，這項研究告訴我們：在你把一台家用機器人或AR導航眼鏡當作靠譜的空間記憶助手之前，這個領域還有相當長的路要走。但知道路在哪裡，總比不知道要強。有興趣深入了解的讀者，可以通過arXiv編號2606.03890查閱完整論文。

---

Q&A

Q1：OVO-S-Bench測試的四個難度層次具體是什麼？

A：OVO-S-Bench把空間理解分成四層。第一層考察當前畫面里能直接看到的資訊；第二層考察影片裡已經消失的場景，需要記憶才能回答；第三層需要在腦子裡模擬物體旋轉、搬運或規劃路徑；第四層最難，要求把整段影片的空間資訊整合成一張客觀的全局地圖，並回答關於整體布局的問題。

贊助商廣告

Q2：為什麼專門針對空間理解微調的AI模型，在OVO-S-Bench上反而比原始模型表現更差？

A：因為這些模型的專項訓練針對的是離散單幀圖像問答或敘事性影片記憶，而不是"在連續影片流中維持持久空間狀態"這個核心能力。訓練讓模型過度適應了特定場景，反而在更全面的流式空間測試中出現了能力退化，尤其是全局地圖構建層面損失最為嚴重。

Q3：換更聰明的抽幀方式，能不能讓AI在OVO-S-Bench上大幅提分？

A：不能。研究測試了8種抽幀策略，包括直接在標註證據區間內抽幀的"理想神諭"方案，但不同策略之間的得分差異極小。這說明AI與人類的27分差距，根本原因不是"沒看到關鍵幀"，而是就算看到了正確的幀，AI也無法有效整合這些資訊來建立空間理解，這是理解機制層面的問題。