俄羅斯頂尖高校研究團隊打造的"萬能地圖神器"：機器人終於能看懂會動的世界了

這項由俄羅斯聖彼得堡國立資訊技術、機學與光學大學（ITMO大學）生物機電與節能機器人實驗室（BE2R Lab）完成的研究，以預印本形式發布於2026年4月28日的arXiv平台，論文編號為arXiv:2604.26067。研究成果名為RADIO-ViPE，全稱"Reduce All Domains Into One — Video Pose Engine"，是一套面向真實世界的在線語義SLAM系統。

贊助商廣告

你有沒有想過，當你把一台機器人送進家裡，讓它幫你找那把剛剛放在沙發上的遙控器時，它到底要經歷多少"心理掙扎"？它首先要搞清楚自己在哪，其次要看懂周圍的東西是什麼，還要應對貓咪突然穿過鏡頭、椅子被推到角落去等各種意外變化。對於今天絕大多數機器人來說，這幾乎是不可能完成的任務——除非有人告訴它攝影機的精確參數，除非環境保持靜止不動，除非提前安裝深度傳感器。

RADIO-ViPE正是為了打破這些限制而生的。它的核心野心是：給機器人一段普通手機拍攝的未經任何標定的影片，然後讓機器人自己搞清楚空間是什麼樣的，同時還能用大白話回答"那個放著書的架子在哪兒"這類自然語言問題——而且全程實時，不需要提前告訴它任何攝影機參數。

一、機器人為什麼"看懂世界"這麼難

回到我們日常生活中最熟悉的場景：你閉著眼走進自己的臥室，靠著記憶中房間的布局，你大概知道床在哪、書桌在哪。這種能力對人類來說稀鬆平常，卻對機器人來說難如登天。機器人的"視覺記憶"依賴一種叫做SLAM（Simultaneous Localization and Mapping，即同步定位與地圖構建）的技術，本質上就是一邊走一邊畫地圖，同時在地圖上標註自己的位置。

然而傳統的SLAM只管幾何，也就是"這裡有堵牆、那裡有個桌子"，至於這個桌子是書桌還是餐桌，它完全不在乎。更頭疼的是，大多數SLAM系統都假設世界是靜止的——一旦有人走過來，或者你把椅子挪了個地方，系統就容易"迷路"，因為它上一刻記錄的地圖和這一刻看到的畫面對不上了。

贊助商廣告

更進一步，現有的語義理解系統（能識別物體類別的那種）大多是"離線"工作的，也就是你得把所有影片拍好了、標註好了，餵給模型處理，等結果出來可能已經是幾分鐘甚至幾小時之後的事了。而且這些系統通常還要求你提供精確的攝影機內參（一組描述攝影機"視角"的數學參數）、深度傳感器（能測量物體距離的設備）以及預先計算好的相機位置。這就好比讓你在一個完全陌生的城市導航，還必須事先給你一份精確到厘米的地圖、一個GPS設備和一張寫滿坐標的紙條——少了哪個都不行。

真實世界裡的影片資源明明浩如煙海——YouTube上的生活記錄、AR眼鏡拍攝的第一視角素材、各種監控錄像——這些數據無一不是"裸奔"的，沒有深度資訊，沒有攝影機參數，沒有任何輔助標註。如果機器人的感知系統只能處理精心準備的"考場數據"，它永遠無法真正融入混亂而真實的世界。

這就是ITMO大學這支團隊下決心要解決的核心矛盾：如何讓機器人僅憑一段普通的單目RGB影片（就是普通攝影機拍出來的普通彩色影片），在沒有任何預先標定、沒有深度傳感器、環境中還有東西在動的情況下，實時建出一張既準確又"懂語言"的地圖？

二、RADIO-ViPE的核心思路：讓視覺、語言和幾何三者捆綁在一起工作

傳統的SLAM系統處理問題的方式，就像一個只會看輪廓的畫家——他能精確描繪出房間的形狀，但他不知道畫裡那個矩形是窗戶還是鏡子。RADIO-ViPE的思路是，把"看形狀"和"理解含義"這兩件事從一開始就綁在一起做，讓兩者互相幫助、互相校正。

實現這個目標的關鍵工具是一個叫做RADIO的基礎模型。基礎模型你可以理解成一個經過海量數據訓練的"萬能翻譯機"，它既能理解圖像里的視覺內容，又能把視覺內容和語言描述對應起來。RADIO的特別之處在於它是"聚合式"的——它把好幾個不同的AI老師的能力融合到一個學生模型里，同時掌握了圖像識別、語義理解和語言對齊等多種本領。

贊助商廣告

整個系統還依託另一個叫做ViPE的框架運行。ViPE本身就是一個無需攝影機標定就能從影片估算相機姿態和三維結構的系統，RADIO-ViPE在它的基礎上進行了大幅擴展，把語義理解能力深度編織進了幾何重建的每一個環節，而不是事後貼標籤式地粗暴拼接。

整個系統的工作流程，可以用"邊看邊建邊理解"六個字來概括。攝影機每拍一幀畫面，系統都在同時做三件事：估計相機移動了多少和往哪個方向移動，更新三維空間的點雲地圖，以及給地圖裡的每個區域附上語義特徵向量（可以理解為"語義指紋"）。這三件事不是分開做完再合併，而是在一個叫做"因子圖優化"的框架里共同被優化，彼此約束、彼此修正。

三、系統流水線：從一段影片到一張"能說話的地圖"

要徹底理解RADIO-ViPE是怎麼工作的，可以把整個流程類比成一位製圖師邊旅行邊製圖的過程——但這位製圖師不僅要畫出地形，還要在地圖上標註每個地方"是什麼"，而且還要隨時應對路上突然出現的行人和被搬動的路障。

旅程的第一步是"校準自己的眼睛"。系統從輸入影片中均勻採樣若干幀，用一個叫做GeoCalib的工具自動估算攝影機的內參——也就是攝影機的等效焦距和光學中心位置。這個過程不需要任何標定板，完全靠圖像本身的幾何資訊推斷，就像一個人通過觀察房間裡平行線的透視關係來判斷自己用的是廣角還是長焦鏡頭。估算出來的內參不是固定死的，後續還會在整體優化過程中被進一步精調。

接下來是"選擇值得記錄的時刻"。並非每一幀影片都會被系統處理，系統會通過光流估計（一種分析相鄰幀之間像素運動的技術）判斷相機移動了多少，只有移動量超過閾值的幀才會被提升為"關鍵幀"，加入到因子圖中。這就像製圖師並不會每走一步就拍照記錄，而是只在走了足夠遠、看到新內容的時候才停下來。

與此同時，系統還會對每個關鍵幀提取"雙重指紋"：一是深度圖——用MoGe或UniDepth這類基礎深度估計模型推斷每個像素對應的真實距離，二是RADIO語義特徵圖——用RADSeg模型提取每個像素區域的高維語義向量。為了節省內存，這些高維向量會用一種叫PCA的數學工具壓縮到256維（原始維度遠高於此），而且壓縮是在語義編碼器的特徵空間而非語言對齊空間裡進行的，這樣保留下來的資訊對空間推理更有價值。

贊助商廣告

然後是"把語義知識用來幫助看清楚路"。系統在用光流估計相機運動之前，會先用RADIO語義特徵計算一個"語義光流場"——即根據兩幀圖像之間語義內容的相似度推斷像素對應關係。對於那些紋理稀少的表面（比如純色牆壁），傳統光流方法容易迷失，因為沒有足夠的紋理細節可以追蹤；但語義光流可以通過"這塊區域的語義特徵和上一幀的那塊區域很像"來幫助定位。最終的流場是幾何光流和語義光流按照各自置信度加權融合的結果。

四、讓語義和幾何一起參與地圖優化的秘密武器

這是整個系統最精妙的部分，也是RADIO-ViPE與之前所有同類工作最本質的區別所在。

傳統的密集束調整（Bundle Adjustment，即同時優化相機姿態、深度圖和內參的過程）只用幾何約束——比如"這個點在A幀里被投影到這個位置，在B幀里應該被投影到那個位置，如果對不上就說明估計有誤"。RADIO-ViPE在這個基礎上增加了一個語義一致性約束：對於圖中任意一個像素點，把它根據當前估計的深度和相機姿態投影到另一幀里，找到對應位置，然後檢查兩個位置的RADIO語義特徵向量有多相似。相似度越低，說明當前的深度或姿態估計越可能出了問題。

這個語義一致性誤差被設計成和幾何重投影誤差"同量級"的形式，具體來說是用餘弦相似度計算出來的差異值再乘以一個縮放係數，使得兩類誤差可以直接相加放進同一個優化目標函數裡。優化器在每次疊代時既要讓幾何投影準確，又要讓語義特徵對齊，兩者缺一不可。

與此同時，因子圖的連接關係也被語義知識增強了。傳統方法只把空間上臨近的關鍵幀相互連接，RADIO-ViPE還會把每個關鍵幀的RADIO特徵做全局平均池化，得到一個緊湊的"全局語義指紋"，然後把當前關鍵幀的指紋和所有歷史關鍵幀的指紋做餘弦相似度比較，如果發現某兩幀雖然在時間上相隔很遠但內容高度相似（比如機器人繞了一圈回到了同一個房間），就在它們之間建立連接，幫助系統識別出"我曾經來過這裡"，從而修正長期漂移誤差。

贊助商廣告

整個優化目標函數由三部分組成：幾何光流誤差、RADIO語義相似度誤差，以及一個深度正則化項（後者負責把深度估計拉向基礎模型給出的深度先驗，防止在缺乏足夠約束的地方出現過度偏離）。三者加權求和，用高斯-牛頓方法疊代求解。

五、對付"會動的世界"的核心武器：時間一致性自適應魯棒核

前面說的那套優化方案已經很強大了，但還有一個根本性問題沒解決：如果視野里有人在走動，或者有人把沙發推到了一個新位置，那些移動物體對應的像素會產生巨大的幾何和語義誤差。如果優化器把這些誤差當真了，就會被它們帶偏，導致地圖和相機姿態估計出錯。

經典的做法是給誤差套一個"魯棒核函數"——簡單來說，就是對大誤差進行懲罰降權，讓優化器不那麼在意那些極端異常值。但問題在於，一個孤立幀里的大誤差，有可能是真正的動態物體造成的，也有可能只是深度估計在這個像素上恰好出了偏差。靠單幀資訊根本沒法區分。

RADIO-ViPE的解決方案是引入"時間一致性"判斷。具體做法是：對於地圖裡的每個像素位置，收集它在所有與該關鍵幀相連的歷史幀中被觀測到時的語義相似度值，計算這些值的均值和方差。如果一個像素的語義相似度在所有幀里都很高（均值高、方差低），說明這是一個真正的靜止表面，完全可信。如果均值低，說明這個位置的語義特徵在跨幀對比中總是對不上，很可能是個一直在動的物體，比如行走中的人。如果均值尚可但方差很高，說明這個位置的內容時不時就發生變化——這正是被人移動過的家具的典型特徵，比如椅子被推到一邊然後又推回來。

把均值和方差合併成一個叫做"時間穩定性場"的指標（數值在0到1之間，越接近1越穩定），然後用這個指標來決定對這個像素施加多強的魯棒性保護。具體機制是通過Barron通用損失函數——這是一套能在不同形狀參數下退化為不同損失函數的數學工具：當形狀參數α等於2時就是普通的均方誤差（對靜止表面用），等於1時是Huber損失（對偶爾被移動的物體用），趨向0時是Cauchy損失（對一直在運動的動態目標用）。

贊助商廣告

穩定性高的像素被分配α=2，讓它們對優化的貢獻得到完全尊重；穩定性中等的像素被分配α在1到2之間，有一定容忍；穩定性低的像素被分配接近甚至小於0的α，其影響被幾乎完全壓制。整個映射關係是連續可微的分段線性函數，不會產生梯度突變，優化過程因此保持穩定。

這種設計的美妙之處在於，它不需要事先告訴系統"哪些是動態物體"，也不需要人類標註，完全靠語義特徵的跨幀時間一致性自動完成分類——而且連"偶爾被移動的准靜止物體"這種極其微妙的情況也被精準捕捉。

六、開放詞彙查詢：用大白話和地圖"說話"

建好了地圖之後，怎麼用它？RADIO-ViPE提供了一種極其自然的交互方式：你直接用文字描述你想找的東西，系統告訴你它在三維空間的哪個位置。

技術實現上，每個三維地圖點儲存著它對應區域的壓縮RADIO特徵向量。當用戶輸入一段文本查詢（比如"咖啡杯"或"放書的架子"），系統先用SigLIP的文本編碼器把這段文字轉化成一個語義向量，然後把地圖中所有點的RADIO特徵解壓並投影到SigLIP的語義空間裡，計算它們與文字語義向量的相似度，相似度最高的那些點就是查詢目標最可能所在的位置。

這種方法之所以能跨模態（從視覺特徵匹配到文字查詢）工作，根本原因在於RADIO本身就是在視覺-語言對齊的訓練目標下訓練的，它的特徵空間天然就和語言語義空間對齊。用戶完全不需要事先告訴系統"地圖裡有哪些類別的物體"，任何文字描述原則上都能工作，這就是"開放詞彙"名稱的來由。

七、實驗結果：數字說話

研究團隊在兩個標準數據集上系統評估了RADIO-ViPE的表現，分別對應"動態場景中的定位準確性"和"語義理解能力"兩個維度。

在TUM-RGBD動態場景基準測試上，評估指標是ATE（絕對軌跡誤差），數值越小代表定位越準確。完整版RADIO-ViPE（帶自適應魯棒核，記為RADIO-ViPEark）在八個測試序列上的平均ATE為1.63厘米，擊敗了所有對比方法，包括DynaMON（平均1.76厘米）、V3D-SLAM（平均2.10厘米）、ViPE-SAM（平均2.17厘米）和DLD-SLAM（平均2.21厘米）等。不帶自適應魯棒核的基礎版RADIO-ViPE平均ATE為1.90厘米，與DynaMON相比也不遜色。

贊助商廣告

這個成績尤其值得關注的是背景：對比方法中的ViPE-SAM依賴Grounding DINO和SAM（Segment Anything Model）兩個重量級基礎模型，並且需要人工指定動態類別名稱（比如"人"、"貓"）才能進行動態遮罩，而RADIO-ViPE完全不需要這些，用更少的資源取得了更好的結果。

在Replica室內場景數據集上，評估的是三維語義分割能力，指標包括mIoU（平均交並比）、f-mIoU（頻率加權交並比）和Acc（像素級準確率）。研究團隊把RADIO-ViPE分為兩個版本：RADIO-ViPEGT使用真值深度、真值位姿和已知內參（相當於給了它最好的條件），普通RADIO-ViPE則完全自主估計。

在不含背景類別的評估設置下，普通RADIO-ViPE取得了24.25的mIoU、50.63的f-mIoU和59.25的準確率，排在所有對比方法的前三名。而提供真值輔助資訊的RADIO-ViPEGT則進一步提升到mIoU 29.51、f-mIoU 52.24、準確率59.80。兩個版本之間的差距只有約1-2個百分點，這說明系統的自主估計能力已經接近了有完美幾何資訊輔助時的上限。

相比之下，目前表現最好的對比方法RayFronts在mIoU上達到了39.37，但它需要已知的相機標定參數（不是完全自主的），而且和其他五個對比方法一樣不支持實時在線運行。RADIO-ViPE是對比列表里唯一一個同時滿足"在線運行、無需標定、無需深度傳感器、無需預先已知位姿"四個條件的方法。

關於PCA壓縮維度的選擇，研究團隊做了一個系統性消融實驗：把RADIO特徵壓縮到32、64、128、256維分別測試。結果顯示，D=256和完整維度（不做壓縮）之間的mIoU差距小於1個百分點，但內存占用大幅降低。這證明了所選擇的壓縮方案在效率和性能之間達到了良好平衡。

整個系統在Intel Xeon Gold 5320 CPU加NVIDIA RTX 4090 GPU的硬體上，以大約8到10幀每秒的速度運行，滿足基本的實時性需求。

歸根結底，RADIO-ViPE做的事情可以用一句話概括：讓一台只有普通攝影機的機器人，在雜亂有人走動的真實環境裡，一邊實時搞清楚自己在哪、周圍是什麼樣子，一邊還能回答"那把椅子在哪裡"這種大白話問題。這件事在以前需要昂貴的傳感器套裝、精心準備的標定數據，還要假設世界不會動，而現在靠一段普通影片就能做到。

贊助商廣告

對於正在研發家用服務機器人的公司來說，這意味著部署成本可以大幅降低；對於AR眼鏡這類產品來說，這意味著設備能更自然地理解用戶所處的環境；對於用第一視角攝影機記錄生活的普通人來說，未來或許他們的影片不只是影片，而是一份機器可以理解、可以查詢的"立體語義日記"。

當然，研究團隊也坦承了當前的局限性：在包含背景類別（如牆壁、地板）的評估設置下，性能有較明顯的下降，這類結構性區域的分割仍是有待突破的難點。有興趣深入了解所有技術細節的讀者，可以通過arXiv編號2604.26067查閱完整論文。

Q&A

Q1：RADIO-ViPE系統和普通SLAM系統相比有什麼本質區別？

A：普通SLAM系統只能建立幾何地圖，知道"這裡有個東西"但不知道那個東西是什麼，也無法用文字描述來查找它。RADIO-ViPE把視覺語義特徵深度編織進幾何優化的每一步，讓地圖裡的每個點都攜帶語義資訊，從而支持用自然語言直接查詢三維空間中的物體位置。此外，RADIO-ViPE完全不需要攝影機標定參數、深度傳感器或預先已知的相機位姿，可以直接處理未經任何處理的普通影片。

Q2：RADIO-ViPE是怎麼識別和過濾掉影片裡移動的人或被挪動的家具的？

A：系統不是靠識別"這是人"來過濾，而是靠觀察某個位置的語義特徵在多幀之間是否穩定來判斷。如果一個位置跨幀看總是語義一致（均值高、方差低），就是可靠的靜止表面；如果語義一直對不上（低均值），可能是持續運動的物體；如果時好時壞（高方差），可能是被人移動過的家具。根據這個穩定性指標，系統自動決定對每個區域的觀測施加多大的魯棒保護，穩定性越低的區域影響優化的權重越小。

Q3：RADIO-ViPE的開放詞彙查詢是如何用文字找到三維空間中物體的？

A：每個三維地圖點都存有它對應圖像區域的RADIO語義特徵向量。當用戶輸入文字查詢時，系統用SigLIP文本編碼器把文字轉成語義向量，然後把地圖中所有點的特徵投影到同一語義空間，計算與文字向量的相似度，相似度最高的那些位置就是目標最可能所在的地方。由於RADIO特徵本身就在視覺-語言對齊的框架下訓練，因此視覺特徵和文字語義可以直接比較，無需事先定義物體類別列表。

贊助商廣告