這項由浙江大學人工智慧研究團隊完成的研究,以預印本形式發布於2026年5月31日,論文編號為arXiv:2606.01247,感興趣的讀者可通過該編號查閱完整論文。
**一個你可能從未意識到自己每天都在做的事**
你有沒有試過,朋友發給你一張在某個地方拍的照片,然後你也想在同一個角度拍一張?你會怎麼做?你會先觀察照片裡出現了什麼家具、窗戶在哪裡、光線從哪個方向射來,然後走動幾步,左轉右轉,蹲下或抬頭,不斷調整,直到眼前的畫面跟朋友的照片大致重疊,這才按下快門。
這個過程對人類來說輕而易舉,幾乎是本能反應。然而,對於當今最先進的AI來說,這居然是一件極度困難的事情。浙江大學的研究團隊正是針對這個問題展開了深入研究,他們將這個任務命名為"目標視角復現"(Target Viewpoint Reproduction,簡稱TVR),並構建了一套完整的測試和訓練體系——TVRBench——來衡量AI在這方面的能力究竟有多強,以及如何提升它。
**一、為什麼"找到正確角度"對AI來說這麼難?**
人類在"找角度"這件事上,其實同時在做好幾件複雜的事情:把眼前的畫面和目標照片進行比較,判斷自己需要向前走還是向後退、需要向左轉還是向右轉、需要抬頭還是低頭,然後用身體動作來彌補這個差距,同時還要記住自己走過哪些路,以免原地打轉,最後還要在恰當的時機判斷"夠了,就是這裡"並停下來。
現有的AI研究在"看圖說話"和"理解空間關係"方面已經取得了不少進展,比如讓AI回答"圖裡的椅子在桌子的左邊還是右邊"這類問題。然而,這些研究絕大多數都是被動的——照片已經提前準備好了,AI只需要看圖回答問題,不需要自己走動、自己去尋找合適的視角。
這就好比讓一個廚師評價一道菜好不好吃,和讓他從頭到尾自己做出這道菜,是完全不同的挑戰。浙江大學的團隊意識到,真正有用的空間智能不是"看圖說話",而是能夠主動行動、主動探索、主動調整,最終在三維空間裡再現一個指定的視角。
**二、TVRBench:這塊"考場"究竟長什麼樣?**
為了檢驗AI在這個任務上的表現,研究團隊搭建了一套名為TVRBench的室內仿真測試平台。整個測試發生在電腦模擬的室內環境裡,AI扮演一個能夠移動和轉頭的機器人,目標是通過自主行動,讓自己眼中看到的畫面與給定的目標照片完全一致。
這個平台的設計非常精心,覆蓋了兩種不同的場景規模。一種是單房間場景,來自AI2-THOR仿真平台,包含廚房、客廳、臥室、衛生間共120個場景。另一種是多房間場景,來自ProcTHOR-10k仿真平台,每個場景包含兩到三個由實體牆隔開的房間,共120個場景。
測試任務還進一步按照"難度"分成了四個類別:單房間簡單、單房間困難、多房間簡單、多房間困難。所謂簡單任務,目標照片裡至少要有9個可識別的物體(比如沙發、燈、桌子等),這些物體就像路標一樣,幫助AI判斷自己站在哪裡、該往哪兒走;困難任務的目標照片則只有3到6個物體,路標極少,導航更加費力。
與此同時,從出發點到目標點的行走距離也有講究。單房間任務需要2到8步行動,而多房間任務則需要10到20步,意味著AI必須穿越走廊甚至多個房間才能抵達目標位置。整個測試集共有500道題,每類125道。
AI的動作選項共有九種:向前、向後、向左、向右各走0.25米;向左或向右旋轉45度;抬頭或低頭30度;以及"停止"——宣告自己已經到達目標位置。AI每次行動後只能看到當前的第一人稱視角照片,無法看到地圖,也不知道自己的精確坐標,更不知道目標點在哪裡。只有當AI喊出"停止"且位置完全正確時,任務才算成功。
**三、現有AI的表現:慘不忍睹的成績單**
研究團隊測試了多個目前最頂尖的AI模型。開源模型包括Qwen3.5-9B、Qwen3.5-27B、Qwen3.6-27B,以及兩個混合專家架構的模型Qwen3.5-35B-A3B和Qwen3.6-35B-A3B;閉源商業模型包括GPT-4o、GPT-5,以及谷歌的Gemini-3.1-Pro。與此同時,研究團隊還邀請了5位真人參與者完成其中100道題,作為人類基準。
結果令人瞠目:在500道測試題中,表現最好的開源模型(Qwen3.5-27B)僅有7.8%的成功率;表現最好的閉源模型(Gemini-3.1-Pro)也只有12%。而人類參與者的成功率高達93%。換句話說,AI完成這個任務的能力,大約只有人類的八分之一甚至更低。
更有意思的是,將模型參數量從90億擴大到270億,成功率的提升極為有限,從2.8%漲到了7.8%。即便是頂級商業模型GPT-5,也僅能達到8%的成功率。這說明單純"把模型做大"並不能解決這個根本性問題。
研究團隊還特別觀察到了兩種典型的失敗模式。第一種是"原地打轉"——AI不停地左轉右轉,卻幾乎不走動,整個任務過程中實際移動到的不同位置平均只有3.5個,但總行動步數卻高達34.3步,而且83%的步驟都是在重複已經去過的地方。第二種是"瞎轉圈"——AI不停抬頭低頭,在同一個地方反覆調整頭部角度,卻毫無進展。統計全部行動分布,旋轉類動作占了50.8%,而真正的身體平移動作只占26.1%,"停止"動作更是僅占可憐的0.1%。
研究人員還做了一個關鍵的控制實驗:如果把任務簡化成只需要在原地轉頭,不需要走動,同樣的Qwen3.5-9B模型的成功率從2.8%一躍升至80.5%;反過來,如果只允許走動不允許轉頭,成功率則停留在10%。這個對比清晰地說明,AI真正的瓶頸不是"看不出兩張照片有什麼不同",而是"看出了不同但不知道該怎麼走過去"。
**四、記憶的方式也至關重要**
研究團隊還測試了兩種不同的"記憶方式"對AI表現的影響。第一種叫做"僅動作記憶"——AI每一步只能看到當前畫面、目標照片,以及過去幾步做了哪些動作的文字描述,比如"第5步:向前走,第6步:向右轉"。第二種叫做"視覺-動作記憶"——AI可以同時看到過去每一步的實際畫面,完整的視覺歷史都保留在上下文中。
實驗結果顯示,對於未經訓練的模型,僅動作記憶反而比視覺-動作記憶表現更好,平均提升約3.8個百分點。這聽起來有點反直覺,但原因其實很清楚:這些模型沒有經過專門訓練,一旦塞進大量歷史畫面,反而會被視覺資訊所干擾,不知道該關注哪裡;而只給它動作列表,雖然資訊更少,但至少不會"被圖片淹沒"。這揭示了另一個重要的瓶頸:現有模型沒有能力有效利用多輪視覺歷史。
**五、"訓練營"能改變局面嗎?——後訓練框架的探索**
既然現有AI在這個任務上表現如此之差,有沒有辦法通過專門訓練來提升它的能力?研究團隊以Qwen3.5-9B作為基礎模型,設計了一套包含四種訓練方法的綜合框架。
第一種方法是"專家示範學習"(SFT,監督微調)。研究團隊先用一個有"上帝視角"的規則程序,在模擬環境裡自動生成1600條最優行走路徑,這個程序知道地圖、知道目標坐標,能規劃出最短路線。然後把這些示範路徑餵給AI,讓它通過模仿來學習"該怎麼走"。這就像教一個孩子開車,不是讓他自己摸索,而是先讓教練示範標準駕駛動作,再讓他反覆練習。在使用視覺-動作記憶的條件下,這種方法把Qwen3.5-9B的成功率從2.8%大幅提升到了50.8%,是一個相當顯著的進步。
第二種方法是"加入推理過程的示範學習"(CoT-SFT,思維鏈監督微調)。在上述示範路徑的基礎上,研究團隊額外藉助MiMo-V2.5模型為每一個動作生成一段"理由",比如"當前畫面里桌子在右側,目標照片裡桌子在正前方,所以應該向右轉"。理論上,這種帶有推理過程的示範應該幫助AI"知其然也知其所以然"。然而結果出乎意料:加入推理過程反而降低了成功率。使用僅動作記憶時,從44.2%下降到24.8%;使用視覺-動作記憶時,從50.8%下降到35.6%。這說明,至少在當前的標註方案下,這種文字推理的監督並不能幫助AI更好地完成需要連續行動的導航任務,甚至會干擾它學習有效的動作模式。
第三種方法是"單步強化學習"(Single-turn GRPO)。這種方法不再訓練整個行走過程,而是把每一步單獨拿出來訓練:給AI看當前畫面和目標照片,問它"這一步該做什麼",然後根據它的回答是否與專家答案一致來給予獎勵或懲罰。這種方法在單步預測的準確率上達到了72%,但在真實的連續任務測試中,成功率卻從44.2%大幅下降到26.2%。這個反差揭示了一個深刻的道理:在實驗室里每道題單獨答對,和在真實場景中連續做30個決策都不出錯,是完全不同的能力。好比一個學生單獨做每道選擇題能答對70%,但在真正的考試中卻因為前面答錯一道題導致後面的判斷全部連鎖出錯。
第四種方法是"多輪強化學習"(Multi-turn GRPO)。這種方法讓AI在真實的模擬環境裡實際走動,每走完一整條路徑才進行一次總體評分——獎勵信號不只看最後有沒有到達目標,還包括整個過程中是否逐步靠近目標、有沒有無效的原地打轉、有沒有在錯誤的位置提前喊停等。這就好比跑馬拉松,不是只看最終成績,而是全程都有教練在旁邊實時指導。這種方法在視覺-動作記憶的基礎上,將成功率從50.8%進一步提升到了51.4%,整體提升幅度雖然不大,但提升來自哪裡很有意義:多房間簡單任務的成功率從27.2%提升到了34.4%,多房間困難任務從24.8%提升到25.6%,恰好是之前示範學習最薄弱的那些場景。
**六、訓練背後的細節:數據是如何準備的?**
為了讓讀者對整個訓練過程有更完整的了解,有必要介紹一下數據的分配方式。研究團隊將240個場景按照1:2:3的比例分成了三個互不重疊的池子:最小的用於示範學習(SFT池),其次用於最終測試(評估池),最大的用於強化學習(RL池)。這樣的劃分確保了測試時用到的場景,在訓練階段從未被AI見過,真正測試的是泛化能力而非記憶能力。
示範學習共生成了1600條軌跡,每條軌跡由三個階段組成:首先調整頭部朝向,使視角方向與目標一致;然後用最短路徑算法規劃地面行走路線;最後喊停。規劃路線的算法使用的是經典的Dijkstra最短路算法,每條示範軌跡都是動作數量最少的最優路徑。
對於強化學習部分,多輪強化學習使用了4800條任務(來自120個RL場景,每個場景40條任務),每次訓練時AI會在同一個任務上生成8條不同的軌跡,然後通過比較這8條軌跡的好壞來判斷哪種走法更值得強化。獎勵信號由四部分疊加而成:每走一步扣除一小點獎勵以鼓勵效率,每次發出的動作格式正確給予小獎勵、格式錯誤則扣分,只有當AI靠近目標的距離超過了歷史最近距離時才給予進步獎勵(回頭走老路不算進步),以及在正確位置喊停給予高額獎勵、在錯誤位置喊停則受到懲罰。
**七、人類是怎麼測試的?**
為了建立一個公平的人類基準,研究團隊邀請了5位志願者,每人完成100道題,四個類別各25道。他們通過一個網頁界面操作,左邊顯示當前的第一人稱視角畫面,右邊顯示目標照片,用鍵盤上的W/S/A/D鍵控制前後左右移動,Q/E鍵控制左右旋轉,R/F鍵控制抬頭低頭,空格鍵宣告完成。整個測試的圖像解析度、動作選項、步數上限和成功判定標準與AI測試完全相同,因此兩者的數據可以直接比較。
**八、為什麼思維鏈(CoT)沒有幫上忙?**
這個發現值得單獨解釋,因為在很多其他AI任務里,讓模型先"想清楚再說"——也就是生成推理過程——往往能顯著提升表現。然而在TVR這個任務里,效果相反。
研究團隊認為,問題可能出在推理過程的標註方式上。每個推理步驟的文字描述是由MiMo-V2.5模型生成的,它被要求為每一步專家動作提供一個1到3句話的理由。但這種"事後解釋"的推理,和AI真正在連續行動中需要用到的空間規劃能力,可能並不是同一回事。更重要的是,TVR任務的每條軌跡長達30到40步,如果每步都帶著一段推理文字,整個上下文會變得非常冗長,反而讓模型在處理時更容易混亂。值得注意的是,研究團隊也坦承,是否存在更適合TVR任務的CoT監督方式,目前仍是一個開放問題。
**九、強化學習為何要在"真實"環境裡訓練才有效?**
單步強化學習的失敗,恰好反襯出多輪強化學習的價值所在。一個每步單獨訓練的模型,只學會了"在專家演示的場景下該怎麼做",從未學過"如果前面走錯了,接下來該怎麼糾正"。而在真實環境裡反覆嘗試、反覆犯錯、反覆獲得獎勵信號的多輪訓練,讓模型有機會接觸到各種"非最優狀態",並在這些狀態下學會如何恢復和前進。
從另一個角度也能看出這一點:研究團隊還做了一個實驗,直接用未經示範學習的原始模型進行多輪強化學習,結果成功率從0%提升到了26.2%——雖然遠不如先做示範學習再做強化學習(51.4%),但起碼能從零開始自己摸索出一套可行策略。而單步強化學習從原始模型出發,最終只能到達3.6%。
**十、這項研究意味著什麼?**
歸根結底,這項研究揭示了當前AI空間智能的一個核心短板:能"看懂"空間,不代表能"行動於"空間。現有的大模型在靜態空間理解題目上已經表現不錯,但一旦需要把這種理解轉化為連續的身體行動,就會出現嚴重的能力斷層。
研究團隊通過TVRBench這套測試體系,把這個斷層清晰地量化了出來。更重要的是,他們通過對比四種訓練方法,找到了目前最有效的提升路徑:用視覺-動作歷史進行示範學習打下基礎(成功率從2.8%升至50.8%),再通過在真實環境裡的多輪強化學習在最薄弱的多房間場景上進一步精調(總體成功率提升至51.4%)。
當然,研究團隊也坦誠地指出了這項工作的局限性。整個測試發生在虛擬仿真環境裡,採用的是離散的位置網格和嚴格的精確匹配判定標準,這與現實世界中模糊、連續、容錯的導航場景還有相當大的距離。所有後訓練結論也只在Qwen3.5-9B這一個模型上驗證過,是否能推廣到其他模型家族、其他規模,以及其他主動感知任務,還需要進一步研究。
從更長遠的視角看,這個任務的意義遠不止於"拍同款照片"。能夠準確復現指定視角的AI,可以應用於室內導航機器人、無人機攝影、虛擬現實體驗、遠程手術輔助等眾多場景。研究團隊已經將TVRBench的代碼、數據集和訓練好的模型全部開源,供更多研究者在此基礎上繼續探索。
對於AI能否真正獲得類人的空間行動智能,這或許只是一個開始。
---
Q&A
Q1:TVRBench測試的任務具體是什麼,為什麼不直接用現有的圖像導航測試?
A:TVRBench測試的是"目標視角復現"任務,即讓AI在三維室內環境中主動行走和轉頭,直到自己看到的畫面與給定的目標照片完全一致,位置、朝向、頭部角度都必須精確吻合才算成功。現有圖像導航任務(如ImageNav)只要求AI到達目標區域附近,不要求最終視角與目標照片匹配,因此測試的能力有本質區別。TVRBench專注於視角的精確復現,而非粗略的位置接近。
Q2:為什麼給AI加入推理過程(思維鏈)反而讓成功率下降了?
A:在這個研究里,添加推理過程會讓訓練數據中每一步都帶有一段文字說明,導致整條軌跡(30到40步)的上下文變得極長,模型容易被大量文字資訊干擾而偏離核心的動作學習。更關鍵的是,這些推理文字是由另一個模型"事後補充"的解釋,與連續行動中真正需要的空間規劃能力存在差距,並不能有效指導模型學習實際的導航決策。
Q3:多輪強化學習比單步強化學習效果好很多,原因是什麼?
A:單步強化學習每次只訓練一個孤立的動作決策,模型只在專家示範過的場景狀態下學習,從未接觸"走錯了該怎麼辦"的情況,導致在真實連續任務中一旦出現偏差就無法恢復,錯誤會不斷累積。多輪強化學習讓AI在真實環境裡完整地走完整條路徑,能接觸到各種非最優的中間狀態,並通過整條軌跡的綜合獎勵信號學會如何糾錯和恢復,因此更適合這類需要多步決策的主動感知任務。






