這項由以色列本-古里安大學(Ben-Gurion University)研究團隊完成的工作,以預印本形式發布於2025年4月,論文編號為arXiv:2604.16680,研究方向涵蓋電腦視覺與3D場景理解,感興趣的讀者可通過該編號查閱完整論文。
說到底,這項研究要解決的是一個讓機器人和自動駕駛汽車都頭疼的基礎難題:如何讓電腦把同一個地方從兩個不同角度掃描得到的"點雲"(可以理解為用雷射筆或深度相機掃完一個房間後,得到的幾百萬個漂浮在空中的小點點的集合)精確地拼在一起。更了不起的是,他們的方案不需要針對新場景重新"訓練"任何模型——就像一個從沒去過你家的裝修師傅,第一次登門就能精確地告訴你每面牆之間的角度和距離。
---
一、為什麼"拼點雲"這件事這麼難
每次你用手機AR軟體在桌上擺一隻虛擬貓,或者自動駕駛汽車在路上實時建圖,背後都有一個看不見的工序在悄悄運轉:把不同時刻、不同角度採集到的3D數據"對齊"成一張連貫的地圖。這個工序專業上叫做"點雲配准",通俗地說就是把兩張各自拍了半張臉的照片,找到共同的鼻子和眼睛,然後精準地拼成一張完整的正面像。
問題在於,點雲既沒有顏色,也沒有紋理,只有冷冰冰的空間坐標。早年間,研究者們設計了各種手工特徵來描述每個點的"鄰居長什麼樣",但這就像只憑一塊磚頭的形狀來辨認一棟樓——換個光線、換個樓盤風格,立刻認不出來。後來深度學習的出現大大提升了準確率,但新的問題隨之而來:用室內RGB-D相機(就是同時能拍顏色和深度的相機,比如微軟的Kinect)訓練出來的模型,換到戶外雷射雷達(LiDAR)掃描的點雲上就像換了個星球,效果大打折扣。每換一種傳感器或者換一個場景,就得重新收集數據、重新訓練,既費錢又費力。
與此同時,圖像領域卻出現了一批幾乎"無所不能"的視覺基礎模型(Vision Foundation Models,VFMs)。這些模型在海量、多樣化的圖片上訓練,能跨越不同場景、不同攝影機,提取到通用的視覺特徵。換句話說,圖像領域已經有了一把能開很多鎖的萬能鑰匙,但3D點雲領域還沒有。
本-古里安大學的研究團隊想到了一個巧妙的解法:既然點雲世界缺少這樣的萬能鑰匙,那能不能把點雲"翻譯"成圖像,然後借用圖像領域的萬能鑰匙來完成配准?這個想法看起來簡單,實際上要解決一個更深層的挑戰:憑空生成的圖像,怎麼保證從兩個不同角度看到的同一個場景,生成的圖像在視覺上是自洽的、幾何上是一致的?
---
二、核心武器:讓AI"腦補"出幾何一致的彩色照片
這裡就要引入這項研究最核心的技術選擇了。研究團隊使用了一類被稱為"世界基礎模型"(World Foundation Models,WFMs)的新型生成模型,具體選用的是英偉達
開發的Cosmos-Transfer。
如果說普通的圖像生成模型(比如Stable Diffusion)像是一位只看過照片集的畫手,給他一張素描讓他上色,他每次畫出來的顏色都可能完全不同——這個咖啡館今天是紅色桌布,明天可能變成藍色地板。那麼Cosmos-Transfer就像一位在無數個真實世界場景中"生活"過的建築師:他不僅能把素描變成彩色透視圖,還能確保從不同角度畫出來的同一個房間,沙發的位置、窗戶的朝向始終保持一致。
技術上,Cosmos-Transfer被訓練為一個影片生成模型,它的輸入是深度圖序列(一段記錄了場景各處距離資訊的影片),輸出是外觀真實、多視角一致的彩色RGB影片。研究團隊把這個特性用到了極致:把源點雲和目標點雲各自對應的深度圖序列,頭尾相接拼成一段完整的深度影片,然後餵給Cosmos-Transfer,讓它生成一段外觀連貫的彩色影片。這樣一來,影片前半段對應源點雲,後半段對應目標點雲,而由於模型的多視角一致性先驗,兩段之間的幾何關係被完整保留了下來。
這裡有一個特別值得細說的設計細節:為什麼要把兩段深度序列"前後拼接"(時序拼接),而不是"左右拼接"(空間拼接)?研究團隊做了對比實驗,結果非常直觀——空間拼接會在畫面中間引入一條人為的斷裂線,這種布局是模型從沒見過的,會導致生成的左半張和右半張在外觀上明顯不協調,就像強行把兩個不同世界的畫面拼在一張紙上,接縫處一眼就能看出來。而時序拼接則完全不同:模型被訓練成處理連續的影片幀,前後幀之間自然有傳承和呼應,把兩段分屬不同視角的深度序列拼在一起,模型會自動把它理解成"攝像機在移動",從而用相同的風格和幾何邏輯生成整段影片。
此外,研究團隊還發現文字提示(Prompt)的作用有些出人意料。他們測試了四種類型的提示:詳細的場景描述(比如"有紅色櫥櫃和木質餐桌的現代廚房")、籠統的描述("一個廚房")、極簡的描述("室內場景")和語義錯誤的描述("雪地森林")。結果顯示,用詳細描述和籠統描述差距非常小,用極簡描述也還能維持不錯的性能,但用完全錯誤的描述就會明顯拖累配准精度。這說明提示更多是一個"語義穩定器"——只要告訴模型大致的場景類型,它就能生成幾何正確的圖像,不需要精確的視覺描述。在實際應用中,這種粗粒度的場景上下文(室內/室外、道路、辦公室)幾乎總是可以從數據的採集元資訊中獲得,幾乎不構成額外負擔。
---
三、第二把鑰匙:專為"找對應點"而生的視覺匹配專家
有了多視角一致的彩色圖像,下一步是從中提取每一對圖像之間的對應關係。這裡研究團隊做了一個關鍵的選擇:不用通用的視覺基礎模型,而是用專門為"圖像匹配和三維重建"任務訓練的專用模型——MASt3R。
區別究竟有多大?研究團隊在消融實驗中直接對比了三個候選模型:DINOv2(一個在大規模通用圖像上自監督訓練的通用視覺基礎模型)、RoMa(一個基於DINO框架、針對圖像配准任務微調的模型)和MASt3R(專為密集三維對應估計訓練的模型)。結果是,DINOv2的平均旋轉誤差(RRE)大約是MASt3R和RoMa的三倍,平均平移誤差(RTE)也差了將近一倍。這個差距在直覺上很好理解:通用視覺模型被訓練來回答"這張圖片裡有沒有貓"或者"這兩張圖片是不是同一個類別",它的特徵空間是為了區分語義概念而組織的;而專用匹配模型被訓練來回答"這個像素對應的是另一張圖裡的哪個像素",它的特徵空間是為了精確定位幾何對應而組織的。把配准任務交給通用模型,就像讓美食評論家來主刀心臟手術——兩者都很專業,但不是同一個專業。
MASt3R還有一個特殊之處:它的特徵提取是"配對感知"的。具體來說,它的解碼器中有一個交叉注意力機制,對某張源圖像提取特徵時,會同時"看"配對的目標圖像。這意味著同一張源圖像,配合不同的目標圖像,會產生不同的特徵圖。這個特性既是優勢也是挑戰:優勢是特徵可以更好地突出兩張圖之間的共同結構;挑戰是如果只挑一對圖像,可能會遺漏部分視角資訊。
為此,研究團隊設計了一個視角選擇策略:從生成的源影片中均勻選K張幀,從目標影片中也選K張幀,然後評估所有K×K對組合,為每對組合分別提取特徵,最後在相似度矩陣上取每對點之間跨所有視角組合的最大相似度。實驗發現,隨著K從1增大到4,配准精度有明顯提升,但超過4之後提升趨於平緩——因為生成影片中相鄰幀本來就高度相關,選太多意義不大。這就像你去一個從沒去過的城市旅遊,只需要從幾個代表性地標拍幾張照片,就足以描述這座城市的空間布局,用不著每走一步都拍一張。
生成的RGB圖像特徵最終需要被"投影"回三維空間,與點雲里的點一一對應。由於RGB圖像本來就是由深度圖生成的,深度圖和點雲之間有精確的幾何對應關係,所以每個圖像像素都可以通過已知的相機內參(或為LiDAR數據模擬的虛擬相機內參)反投影回3D坐標,從而為點雲中的每個點賦予一個來自圖像匹配專家的特徵向量。
---
四、第三條腿:原汁原味的幾何特徵提取
只依賴生成圖像還不夠。生成的彩色圖像固然捕獲了豐富的視覺線索,但點雲本身也蘊含著圖像難以完整表達的幾何資訊——比如平面的法線方向、局部曲率、物體的三維輪廓。
所以研究團隊在生成圖像分支之外,並行地保留了一條傳統的幾何特徵提取分支,直接處理原始的3D點雲。他們嘗試了三種不同的幾何特徵提取器:FCGF(用對比學習訓練的全卷積幾何特徵)、Predator(專為低重疊場景設計,帶有重疊區域預測機制)以及GeoTransformer(用幾何自注意力機制和相對位置編碼建模空間關係的變換器架構)。實驗結果中,GeoTransformer表現最好,因此被選為默認的幾何分支骨幹。
值得強調的是,無論搭配哪種幾何特徵提取器,加入生成圖像分支後的整體性能都比單獨使用幾何特徵要好。這說明兩條分支捕獲的資訊確實是互補的,圖像分支和幾何分支各自看到了對方看不到或看不清楚的東西。
---
五、把兩條線索融合成一個判斷:概率"合議"機制
現在問題來了:圖像分支給出了一組候選對應點,幾何分支也給出了一組候選對應點,怎麼把兩者合併成最終的配准結果?
直覺上最簡單的做法是把兩個分支的特徵向量直接拼在一起,然後一起算相似度——業界把這叫做"先融合再匹配"。GPCR等前人工作就是這麼做的。但研究團隊認為這個方法有一個根本性的問題:兩個分支的特徵是在完全不同的空間裡學出來的(一個是圖像像素空間,一個是3D幾何空間),直接拼接就像把蘋果的甜度和橙子的酸度直接加在一起打一個"水果總分"——這個總分既沒有保留蘋果的特性,也沒有保留橙子的特性,而且物理意義上也說不通。
研究團隊提出的方案叫做"先匹配再融合"(Match-then-Fuse):兩個分支分別獨立地完成各自的匹配,各自產生一個"對應點概率矩陣"(即對於每一對源點和目標點,該分支認為它們是同一個物理點的概率是多少),然後在概率層面把兩個矩陣融合。
融合的數學原理用一個日常生活中的例子來解釋:假設你要判斷某人是不是你的老朋友張三。你的眼睛說"這個人的臉有80%像張三",你的耳朵說"這個人的聲音有70%像張三"。這兩條證據是相互獨立的(聲音不會影響你的視覺判斷,反之亦然)。在這種條件獨立假設下,結合貝葉斯定理,可以嚴格推導出一個綜合置信度公式,這個公式就是研究團隊的"Noisy-AND"融合。
Noisy-AND的邏輯是:只有當圖像分支和幾何分支同時都支持某對對應點時,這對對應點的融合置信度才會高。如果只有一個分支支持,融合後的置信度不會顯著提升。這就像兩個獨立的目擊證人同時指認同一個嫌疑人,比一個目擊證人的證詞要可靠得多。
除了Noisy-AND,研究團隊還推導了Noisy-OR的版本,其邏輯是:只要任意一個分支支持,置信度就會提升,相當於"有一個目擊者就夠了"。對比實驗顯示,Noisy-AND在精確率上始終高於Noisy-OR,而精確率對於配准至關重要——在最終的魯棒位姿估計步驟(使用SC2PCR,一種對異常值魯棒的求解算法)中,一小批高精度的對應點比大批低精度的對應點更有價值。因此Noisy-AND被選為最終設計。
融合後的概率矩陣通過互近鄰匹配策略提取出一組候選對應點,再用魯棒估計算法求解最優的旋轉矩陣和平移向量,完成整個配准流程。
---
六、把雷射雷達數據也納入同一套框架
整套流程有一個基礎前提:需要把點雲轉換成深度圖序列,才能餵給Cosmos-Transfer。室內RGB-D數據集(如3DMatch和ScanNet)天然就提供了深度幀序列,處理起來相對直接。但戶外雷射雷達(LiDAR)數據完全不同:它採集的是360度全向掃描的稀疏點雲,並沒有對應的相機幀序列。
為了讓這套框架也能處理LiDAR數據,研究團隊設計了一個虛擬相機投影流程:在LiDAR點雲中"安裝"一個虛擬相機,把三維點投影到這個虛擬相機的成像平面上,得到一張深度圖,然後用這張深度圖作為Cosmos-Transfer的輸入。
這裡有一個不容忽視的技術細節:LiDAR傳感器覆蓋極寬的視角(通常超過180度甚至360度),如果用普通的針孔相機模型(也就是我們日常相機的成像模型)來投影,邊緣處會產生嚴重的非線性畸變,整張深度圖會變得很不自然。為此,研究團隊採用了f-θ相機模型——這是一種在機器人和自動駕駛領域常用的廣角成像模型,能更準確地處理大視角的投影關係,生成的深度圖更自然、更符合真實世界的視覺規律。在Waymo實驗中,每次只使用一個朝向前方的虛擬相機。如果需要360度全景配准,這個方法可以自然地擴展為多個有重疊視角的虛擬相機陣列。
---
七、實驗數據說明了什麼
研究團隊在三個基準數據集上全面評估了C-GenReg的性能,覆蓋室內和室外兩大場景類型。
在室內基準3DMatch上,C-GenReg與多個已在該數據集上訓練過的有監督方法正面比較。儘管C-GenReg是零樣本運行(從未在3DMatch上訓練),它在大多數指標上仍然達到甚至超過了這些有監督方法。具體來看,平均旋轉誤差為3.8度,平均平移誤差為11.9厘米,在5度旋轉精度上達到94.2%,在25厘米平移精度上達到95.7%。相比之下,此前最接近的生成式配准方法GPCR在旋轉精度上有0.1個百分點的微弱優勢,但在平移誤差上C-GenReg反超。
更有意思的跨數據集泛化實驗發生在ScanNet上。所有方法都在3DMatch上訓練,然後不做任何調整直接在ScanNet上測試——這是檢驗泛化能力的標準方式。在ScanNet Hard(幀間距離更大、重疊度更低的困難版本)上,C-GenReg在多數指標上名列前茅,平均旋轉誤差降至7.8度,平均平移誤差為23.0厘米。在提供官方標註對的ScanNet SuperGlue分割版本上,C-GenReg同樣穩居前兩名。由於GPCR代碼未公開發布,這一版本的對比中未能包含GPCR,但與其他可對比方法相比,C-GenReg仍然保持領先。
最引人注目的結果出現在Waymo戶外雷射雷達基準上。對比方法(GeoTransformer、FCGF、Predator)都在KITTI自動駕駛數據集上訓練,然後在Waymo上測試——而Waymo用的是不同規格的雷射雷達傳感器,點密度和掃描模式都有差異。這種跨傳感器的域偏移讓三個有監督方法全部大幅退化,最好的GeoTransformer平均旋轉誤差高達7.3度,平均平移誤差4.1米。C-GenReg則把平均旋轉誤差壓縮到2.4度,平均平移誤差降至1.7米,提升幅度超過一倍到兩倍。這是該領域首次有生成式配准框架在真實戶外LiDAR數據上成功運行,並取得如此顯著的優勢。
在低重疊度(重疊率低於30%)的極端挑戰場景下,C-GenReg同樣優於純幾何方法:在Lo3DMatch上,旋轉誤差從21.1度降至14.6度,平移誤差從53.5厘米降至45.5厘米;在低重疊Waymo子集上,提升更為驚人,旋轉誤差從19.7度降至5.0度,平移誤差從9.0米降至1.7米。
作為參考上界,研究團隊還報告了"C-GenReg Oracle"的結果——用真實的RGB圖像代替生成圖像運行相同的管線。這個上界在3DMatch上取得了99.6%的5度旋轉精度和98.3%的25厘米平移精度,表明如果未來生成模型能生成更接近真實外觀的圖像,整個框架還有相當大的提升空間。
---
八、代價與前景:507秒的"沉思時間"
這套框架的主要代價是運行時間。在NVIDIA RTX A6000 GPU上,處理一對點雲的總耗時約為508秒,其中約507秒花在Cosmos-Transfer的影片生成上,VFM特徵提取不到1秒,幾何特徵提取和位姿求解合計約0.1秒。相比之下,純GeoTransformer只需約1.6秒。
這個差距在實際應用中是否可以接受,取決於具體場景。對於離線的3D重建任務(比如建築測量或考古遺址建模),幾百秒的延遲完全在可接受範圍內。對於實時機器人導航,目前的速度確實不夠。但研究團隊指出,英偉達近期發布的Cosmos Transfer模型蒸餾工作報告了高達72倍的推理加速,如果應用這一技術,整個管線的運行時間可以壓縮至約7秒左右,大幅縮小與實時需求之間的差距。這就像一個需要每次沉思8分鐘才能回答問題的助手,通過專項訓練有望把反應時間壓縮到7秒——工程上是可以期待的。
---
歸根結底,C-GenReg做的事情可以用一句話概括:它教會了電腦先"腦補"出一張彩色照片,然後用這張照片幫助自己找到兩片點雲之間的對應關係。這個看似繞路的設計,恰恰繞開了3D領域"缺乏通用基礎模型"的根本瓶頸——既然3D世界還沒有萬能鑰匙,就借用圖像世界裡已經存在的萬能鑰匙,同時不丟掉3D本身的幾何資訊,用概率合議的方式把兩條線索嚴謹地合併在一起。
對於普通人而言,這項研究的意義遠不止一個學術指標的提升。它的零樣本特性意味著,未來的3D掃描設備——不管是你用手機拍的家具擺放圖、建築工地的測量儀器,還是無人車頂上昂貴的雷射雷達——可能都可以用同一套框架來處理數據,而不需要針對每一種新設備重新收集數據和重新訓練模型。這對於降低3D感知技術的普及門檻,具有相當實際的價值。
你可能會好奇:如果未來有人開發出真正的"3D版視覺基礎模型",這套借道圖像的方案還會有存在的必要嗎?這是一個很值得思考的開放問題。有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2604.16680查閱完整原文。
---
Q&A
Q1:C-GenReg為什麼不需要針對新場景重新訓練模型?
A:C-GenReg的所有模組——包括Cosmos-Transfer影片生成、MASt3R圖像匹配和GeoTransformer幾何特徵提取——都使用公開發布的預訓練權重,在整個運行過程中保持凍結狀態,不做任何參數更新。它的泛化能力來自於世界基礎模型本身積累的多視角幾何先驗,以及任務專用視覺基礎模型的通用匹配能力,而非針對特定數據集的有監督擬合。
Q2:C-GenReg處理雷射雷達點雲時用的虛擬相機是真實存在的設備嗎?
A:不是。虛擬相機是純軟體層面的數學模型,研究團隊在電腦中為雷射雷達點雲"安裝"一個假想的相機,將三維點按照f-θ投影規則映射到一張二維深度圖上。這個過程不需要任何真實的相機硬體,只是把雷射雷達的稀疏三維坐標轉換成深度圖像格式,以便Cosmos-Transfer能接受它作為輸入。
Q3:Noisy-AND融合和直接拼接兩個分支特徵相比,優勢具體體現在哪裡?
A:直接特徵拼接在匹配之前把兩個來自完全不同空間(圖像像素空間和3D幾何空間)的特徵向量合併,這破壞了每個分支原本的特徵結構和歸納偏置。Noisy-AND則讓兩個分支各自獨立完成匹配、各自產生概率分布,再在概率層面用條件獨立假設嚴格推導融合公式,保留了每個分支的"判斷邏輯"。實驗顯示,與特徵拼接相比,Noisy-AND在使用GeoTransformer作為幾何分支時,平均旋轉誤差和平均平移誤差均降低了約5倍。






