這項由布朗大學、馬里蘭大學、賓夕法尼亞大學、南加州大學、紐約大學、雪梨大學和Stability AI聯合完成的綜述研究,以預印本形式發布於2026年6月,論文編號為arXiv:2606.04291,有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。
**一本寫給所有人的三維世界指南**
假設你拿起一個蘋果,你的大腦在0.1秒內就能判斷出它的形狀、大小、表面紋理,甚至能預測它落到桌上會怎麼滾動。這種能力在人類看來稀鬆平常,但對於電腦來說,卻是一道橫亘多年的高牆。三維視覺,簡單說就是讓機器"看懂"立體世界的技術,近年來突飛猛進,已經滲透進自動駕駛汽車、工業機器人、增強現實眼鏡乃至數字文物復原等幾乎每一個前沿領域。
然而,這個領域有一個讓外人望而生畏的特點:它像一個巨大的工具箱,裡面裝滿了形形色色的工具,每種工具有自己的名字、用法和適用場景,而且這些工具之間的關係錯綜複雜,連專業研究者有時也會迷失其中。正因如此,這支來自多所頂尖機構的研究團隊決定做一件聽起來樸實、實則極具價值的事情——寫一本"菜譜"。
他們將這篇論文命名為《三維視覺菜譜:數據、學習範式與應用》,其核心思路是:不論你是剛入門的學生,還是想換賽道的工程師,都應該有一張清晰的地圖,告訴你三維視覺這片森林裡有哪些樹、這些樹長什麼樣、它們各自有什麼用處,以及最近又長出了哪些新枝丫。這篇菜譜的獨特之處在於,它不是從算法架構出發,也不是只盯著某一個具體任務,而是從"數據"本身出發——先弄清楚三維世界的數據有哪些形態,再講這些數據怎麼被機器學習,最後落到實際應用。這種以數據為核心的視角,在現有綜述中相當罕見。
**一、三維數據的"八種語言":電腦看世界的不同方式**
要理解三維視覺,首先要弄懂一個根本問題:電腦究竟用什麼方式來"儲存"和"理解"一個三維物體?這就好比問,你可以用素描、油畫、雕塑、樂高積木、3D列印模型或者數學公式來表達同一個蘋果,每種方式都有自己的優勢和局限。研究團隊系統梳理了三維視覺領域最主流的八種數據表達方式,理解這八種"語言",是讀懂整個領域的基礎。
第一種叫做RGB-D數據,這也許是最接近普通人日常直覺的一種。RGB是彩色圖像,D是深度(Distance/Depth),也就是每個像素離相機有多遠。微軟Kinect體感設備就能產生這種數據。你可以把它理解為:普通照片加上一張"距離地圖",每個像素不僅有顏色,還標註了"這裡距離我1.2米,那裡距離我3.5米"。這種方式計算起來非常高效,就像在一張平面圖上多加一層資訊,所以廣泛用於室內場景理解、人體姿態識別和即時定位與地圖構建(俗稱SLAM,可以理解為機器人邊走邊畫地圖)。它的局限是只能看到"正面",背後和側面被遮擋的部分無法獲知。
第二種是多視角圖像。這相當於拿著相機圍著一個物體轉一圈,從不同角度拍很多張照片,然後把這些照片和每張照片對應的相機位置一起打包。這種方式在視覺上保真度極高——畢竟照片本身就很逼真——但三維幾何形狀需要通過計算推斷出來,而不是直接測量。谷歌街景、神經輻射場(後文會詳細介紹)都以此為輸入。
第三種是點雲。點雲可以理解為用雷射筆在物體表面打了密密麻麻的點,每個點記錄它在空間中的三維坐標(x, y, z),有時還附帶顏色或表面法線方向。雷射雷達(LiDAR)產生的就是點雲,自動駕駛汽車頂上那個旋轉的圓柱體就是雷射雷達。點雲的優點是直接測量、真實準確,缺點是這些點雜亂無章,沒有固定的順序或連接關係,所以傳統的圖像處理神經網路不能直接用,需要專門設計的算法。PointNet就是第一個專門處理點雲的深度學習網路,它能直接對這些散亂的點進行分析。
第四種是體素網格(Voxels)。如果點雲像散落的沙粒,那體素網格就像用整齊的正方體積木把空間切割成一個個小格子,就像三維版的像素(Pixel),因此叫體素(Voxel)。每個格子可以標記"有東西"或"沒東西",也可以儲存顏色、密度等資訊。這種方式天然適合三維卷積神經網路處理,就像二維圖像適合二維卷積網路一樣。但問題在於,如果你想要高精度,格子就得很小、數量就得很多,內存消耗會呈三次方急劇膨脹,代價非常昂貴。
第五種是網格(Mesh)。網格是由頂點、邊和面(通常是三角形面)構成的表面模型,就像用三角形拼貼出一個物體的外殼。遊戲裡的角色模型、動畫電影裡的人物,幾乎都是網格。網格既能表達形狀,又能表達拓撲(也就是哪些部分是連著的),非常緊湊,適合渲染和物理仿真。難點在於網格的不規則性——三角形的數量、大小、連接方式千變萬化,標準的深度學習框架對這種不規則數據處理起來很吃力,所以很多流程會先把網格轉換成點雲或體素再處理。
第六種是CAD模型,全稱電腦輔助設計模型。與前幾種側重於"長什麼樣"不同,CAD模型更關注"怎麼造出來的"。它用數學公式精確描述曲面,最常見的是NURBS(非均勻有理B樣條曲線),可以把它理解為用幾個"控制把手"來精確操控一段光滑曲線或曲面。工業零件設計、汽車車身建模用的就是CAD。CAD模型的精度極高,可以直接用於數控加工,但獲取方式不像拍照那麼簡單,通常需要工程師手工設計,或者從掃描數據"逆向工程"重建。
第七種是隱式場(Implicit Field),這是近年來隨著神經網路技術興起的新方式,代表作是神經輻射場(NeRF)和占用網路(Occupancy Networks)。傳統方式都是用明確的點、面、格子來表示形狀,而隱式場則把整個三維形狀編碼進一個神經網路的參數裡。你給它一個三維坐標,它告訴你那裡是"裡面"還是"外面",或者那個位置從某個角度看起來是什麼顏色、有多亮。這種方式理論上精度極高,能表達非常精細的細節,但訓練和渲染都比較慢。
第八種是三維高斯濺射(3D Gaussian Splatting,簡稱3DGS),這是目前最新、最熱的一種方式。它把場景表示為大量的三維橢球(高斯球),每個橢球記錄了位置、大小、方向、顏色(還帶有隨視角變化的顏色效果)和透明度。你可以把它想像成用一大堆半透明的泡泡來填滿空間,通過這些泡泡的疊加來還原出場景的外觀。3DGS的驚人之處在於速度——它把渲染時間從神經輻射場的幾秒鐘縮短到了毫秒級別,足以支持實時渲染。研究團隊在論文中將這種速度躍升稱為"革命性的",這一突破直接使得訓練大型三維基礎模型成為可能。
這八種方式各有千秋,研究團隊用一張表格清晰地對比了它們的效率、精度和典型應用場景。大致來說,RGB-D和多視角圖像效率很高但有各自的局限,點雲和網格平衡適中,體素網格和隱式場精度好但計算代價高,三維高斯和CAD則在各自擅長的領域(實時渲染、工業精度)效率與精度兼得,可以稱得上是"頂配"。
**二、機器怎麼"學會"看三維世界:從死記硬背到舉一反三**
弄清楚三維數據有哪些形態之後,下一個問題是:機器究竟怎麼從這些數據中"學到東西"?
早期的學習方法有點像死記硬背。研究人員直接在三維空間裡計算誤差——這個點離正確位置差了多少,那個體素的密度和真實情況差了多少——然後讓網路去糾正自己。這種方法原理簡單,但計算量極大,對於高精度的體素網格或精細曲面來說,代價大得幾乎不可接受。
轉折點出現在"可微分渲染"技術被引入之後。所謂可微分渲染,簡單說就是讓"從三維模型生成二維圖像"這個過程變得可以"反向傳播誤差"。正常渲染是單向的:給定三維模型,輸出圖像。可微分渲染讓這個過程變成雙向的:不僅可以從三維生成圖像,還可以把"生成的圖像和真實圖像的差距"作為信號,反向告訴三維模型"你哪裡畫錯了"。這就像一個學生在紙上畫素描,老師不直接在素描上修改,而是通過比較學生的畫和真實照片,告訴學生哪些地方畫得不像,讓學生自己修改。
在這個框架下,神經輻射場(NeRF)應運而生。NeRF的核心思路是:用一個神經網路來表示整個場景,輸入三維坐標和觀察方向,輸出該位置的顏色和密度。通過讓這個網路渲染出的圖像儘量接近真實拍攝的多視角圖像,網路的參數就逐漸學會了場景的三維結構。但NeRF很慢,因為渲染每一幀圖像都要對每條光線上的大量點進行神經網路查詢,計算量驚人。
三維高斯濺射則從另一個角度解決了這個問題——它拋棄了神經網路的隱式表示,改用顯式的高斯球,並採用一種高度優化的光柵化渲染器(可以理解為更直接、更快速的圖像生成方式),把渲染速度提升了幾個數量級。這個突破不只是讓渲染變快,更重要的是,它使得研究人員可以用渲染結果作為監督信號來訓練更大、更複雜的三維模型,打開了"三維基礎模型"這扇大門。
**三、"看圖說立體":以二維監督學習三維的新範式**
三維視覺領域還有一個核心挑戰:三維數據太難收集了。給二維圖像打標註,只需要人在圖片上框框選選;但給三維數據打標註,需要精密的掃描設備、大量的人工校正,成本高出一個數量級。於是,研究人員開始問一個聰明的問題:我們能不能只用大量的二維圖像(這類數據網際網路上有幾十億張)來訓練三維理解模型?
這就催生了一批以圖像平面為監督信號的端到端三維基礎模型,論文中詳細介紹了這一批代表性工作。
DUSt3R是其中的先驅之一。它的核心思路是:給定兩張從不同角度拍攝的圖片,直接預測出每張圖片裡每個像素對應的三維坐標點,同時用置信度來衡量預測的可靠程度——不確定的地方置信度低,確定的地方置信度高。整個訓練過程不需要提前做多視角幾何優化,而是直接用真實三維坐標作為目標,以帶置信度加權的損失函數來引導網路學習。
VGGT(視覺幾何基礎Transformer)則把這個想法推到了更大的規模,讓模型同時處理多張圖片,並且一次性預測出相機參數、深度圖、三維點圖和點的軌跡(也就是同一個物理點在不同圖片中的對應位置)。這相當於訓練了一個"全能的三維理解助手",一次輸入一批圖片,它能同時告訴你每張照片是從哪裡拍的、場景的深度長什麼樣、三維結構是什麼。
RayZer走了一條更極端的路:它完全不使用三維數據作為監督,而是把每張圖片分解為"場景"和"相機"兩個部分,通過讓模型在不同相機之間"翻譯"場景來學習三維結構,訓練信號完全來自二維圖像的重建質量。這就好比讓一個從未離開二維平面的人,通過大量觀察不同角度的影子,自學出對立體世界的理解。
π?(Pi-cubed)解決了另一個棘手問題:當輸入的圖片沒有固定順序時怎麼辦?它設計了一種對圖片順序不敏感的學習方式,無論你把圖片打亂成什麼順序,網路的輸出都不會變。訓練時同時優化局部點圖和相對位姿兩個目標,讓模型學到更魯棒的幾何理解。
Depth Anything 3則把這個方向又推進了一步,將深度估計和射線方向估計合併成一個統一的六維輸出——每個像素不僅告訴你深度(離相機多遠),還告訴你這條光線的方向(從哪裡來、往哪裡去),相當於把單目深度估計和相機幾何推斷統一在了一個模型里。
**四、當生成遇上重建:三維世界的"雙引擎驅動"**
除了從真實數據學習,還有另一條路線:用生成模型來補充缺失的三維資訊,或者反過來,用三維重建來約束生成模型的輸出。
DreamFusion和Magic3D是這條路上的早期代表。它們的核心技術叫"分數蒸餾採樣"(Score Distillation Sampling),原理是:用一個在海量二維圖片上訓練好的生成模型(比如Stable Diffusion那類擴散模型)作為"老師",讓三維神經場作為"學生",通過不斷問"老師這個視角看起來像嗎"來優化三維模型。這就好比你要捏一個泥塑,但沒有真實的參照物,於是你用一個審美很好的朋友來評判,根據朋友的反饋不斷調整,最終捏出一個各個角度看起來都令人滿意的形狀。
更新的路線是"原生三維生成基礎模型"。TRELLIS學習了一種結構化的三維隱空間表示,可以從文本或圖像生成三維內容,並直接解碼為輻射場、高斯球或網格等多種格式。SAM 3D則設計了一套"模型在環"的數據引擎——讓生成模型自動產生候選三維數據,再由人工審核篩選出高質量的樣本,這些樣本反過來又用於訓練更好的生成模型,形成一個自我強化的循環。這種方式繞過了三維數據稀缺的瓶頸,因為每一輪循環都會產生更多更好的訓練數據。
這種"重建促進生成、生成補充重建"的協同關係,是論文中特別強調的一個趨勢。兩個方向不再是相互獨立的賽道,而是在共享的隱空間中相互促進,形成一個持續優化的數據飛輪。
**五、三維技術能做什麼:從重建到具身智能
的全景圖**
理解了數據表達方式和學習方法之後,論文用相當大的篇幅介紹這些技術能做什麼,也就是具體的下游應用,這一部分的內容頗為宏大,幾乎構成了一幅三維視覺應用的全景圖。
三維重建是最直接的應用,也是歷史最悠久的方向。傳統方法叫做運動中恢復結構(SfM)和多視角立體視覺(MVS),原理是從多張圖片中找到匹配點,通過幾何計算推斷出相機位置和場景三維結構。這類方法數學上很嚴謹,但對圖片質量要求高,在紋理模糊或光線不均勻的場景下容易失敗。現代方法用前文介紹的那些神經網路直接端到端地從圖片預測三維結構,即使只有一張圖片、即使相機參數未知,也能得到合理的結果。
三維資產和場景生成是近年來熱度極高的方向,通俗說就是"用文字或圖片自動生成三維模型"。現代方法先用多視角擴散模型生成從不同角度看物體的多張一致圖片,然後再用大型重建模型把這些圖片快速轉換為網格、三維高斯或三平面(tri-plane)表示。這個過程可以在幾秒到幾分鐘內完成,而以前的SDS方法往往需要幾小時。更進一步,研究者們還在嘗試生成整個房間乃至整棟建築的三維場景,比如3D-SceneDreamer和AnyHome這兩個框架,可以根據文字描述生成可以在其中"漫遊"的室內環境,包括房間布局、家具擺放等具體細節。
三維一致性影片生成是一個更新的交叉方向。大型影片生成模型能生成視覺上令人驚艷的畫面,但往往缺乏跨幀的幾何一致性——從一幀到下一幀,牆面可能突然彎曲,人臉可能出現奇怪的變形。研究者們正在把三維知識注入影片生成模型,以三維一致性作為獎勵信號(類似於"這段影片裡的幾何關係合理嗎")來約束生成過程,或者在影片生成的去噪過程中強制讓特徵與深度圖或對極線對齊。Diffusion as Shader(擴散作為著色器)則進一步用密集的三維軌跡來精確控制生成影片中的運動,實現了對生成內容的精細空間控制。
四維渲染和三維世界模型是更前沿的方向,目標是從靜態三維進化到動態三維,也就是理解和模擬物體隨時間的運動和變化。四維高斯濺射在三維高斯的基礎上引入了形變場,把運動表示為三維結構隨時間的演化,而不是一系列不相關的二維幀,從而實現了動態拓撲的實時渲染。三維世界模型的目標更大:讓模型能夠預測未來狀態,為機器人規劃提供支持。PointWorld和ParticleFormer等工作直接在三維點或粒子層面進行狀態預測,確保預測結果在時間上前後一致、在多視角下物理合理。WorldSimBench是評估這類模型的專用基準測試,檢驗模型是否真的表現得像一個可用的物理模擬器。
具身智能(Embodied AI)是所有這些技術最終落地的場景之一。讓機器人理解三維世界、通過語言接受指令、在物理空間中執行任務,這三個能力的整合就是空間智能在視覺-語言-動作系統中的體現。現代的三維視覺-語言-動作系統不再把圖像像素直接映射到機械臂的關節角度,而是在共享的三維表示空間中對感知、語言和控制進行統一建模。用三維點流或空間軌跡來表達"意圖",使得機器人對視角變化更魯棒,也更容易在不同機器人平台之間遷移——畢竟,同樣的三維世界理解,不管你是用四軸機械臂還是六軸機械臂來操作,本質上是相同的。
**六、數據集和基準測試:推動進步的無名英雄**
再好的算法,沒有數據也是空談。論文用專門的篇幅梳理了三維視覺領域的數據集生態,這部分內容對於理解整個領域的發展脈絡同樣不可或缺。
研究團隊整理了50個具有代表性的數據集,時間跨度從2015年的ShapeNet一直延伸到2025年的最新數據集。通過這個列表可以清楚地看到這個領域的發展軌跡:2020年前後出現了一個發布高峰,隨後每年都有穩定的新數據集湧現,說明整個領域的數據基礎設施在快速擴張,而這種擴張往往與新的傳感器技術或新的模型範式密切相關,而非均勻線性的增長。
從數據模態來看,網格數據集(50個中有28個涉及網格)和多視角圖像數據集(25個)最為常見,而體素數據集(3個)和隱式場數據集(1個)極為稀少。這種分布不平衡反映了獲取難度:網格和圖像相對容易生成或拍攝,體素和隱式場通常需要從其他格式轉換,自然數量較少。從空間粒度來看,以單個物體為中心的數據集(18個)和室內場景數據集(13個)占主導,而戶外場景和混合場景數據集則相對匱乏。
這50個數據集中,有幾個值得單獨介紹,因為它們對整個領域產生了深遠影響。ShapeNet是2015年發布的大型CAD數據集,包含數十萬個三維模型,幾乎所有三維物體分類、分割和生成的方法都在它上面做過測試,可以說是三維視覺領域的ImageNet。ScanNet於2017年發布,提供了室內場景的RGB-D掃描和語義標註,是室內理解任務的標準基準。ScanNet++是其2023年發布的升級版,精度更高,同時支持了包括三維高斯濺射在內的新型表示。Objaverse於2023年發布,包含數百萬個三維網格和對應的文字描述,是訓練多模態三維理解模型的重要資源。
近年來還出現了一個新趨勢:數據集構建本身越來越"模型感知",也就是數據集的設計已經把特定模型範式的需求考慮進去了。比如InteriorGS直接提供了以三維高斯濺射格式標註的室內場景,而不是只有網格或點雲,可以直接用於訓練和評估高斯濺射相關方法。MegaSynth則用合成場景來大規模擴充重建模型的預訓練數據。WorldSimBench更是在評估層面提出了新要求:不僅測試重建精度,還測試生成模型是否能在長期任務中表現得像一個真實可用的物理模擬器。
儘管如此,現有數據集生態仍有明顯的不足。幾乎沒有一個數據集能同時滿足多種模態(點雲、網格、高斯球、圖像都有)、時間一致性(支持動態場景)和開放世界泛化(在各種未見場景中都有效)這三個要求。研究團隊明確指出,填補這些空白是未來最緊迫的任務之一,需要在數據規模、多樣性、標註效率和合成-真實數據之間取得更好的平衡。
**七、前路在哪裡:三個正在匯聚的方向**
在梳理完現狀之後,論文在結論部分提出了三個前景廣闊的研究方向,值得單獨展開。
第一個方向是統一的基準測試和評估協議。目前,室內場景數據集(ScanNet++、DL3DV-10K)、物體數據集(WildRGB-D)和合成數據集(PointOdyssey、MegaSynth、InteriorGS)各自為政,缺乏一個橫跨對象、場景、動態場景的統一評估平台。研究團隊認為,未來需要能同時評估重建精度和生成模型行為(是否符合物理規律)的綜合基準。
第二個方向是跨模態和二維監督學習策略。網際網路上有數十億張二維圖片,這是遠比三維數據更豐富的資源。如何從這些圖片中提取幾何資訊、同時保持對三維世界的準確理解,是一個既有理論深度又有實際價值的問題。前文提到的DUSt3R、VGGT、RayZer等工作都在朝這個方向努力,但距離充分利用這些二維數據的潛力還有很長的路要走。
第三個方向是可擴展的實時表示。三維高斯濺射已經在渲染效率上實現了質的飛躍,但在大規模場景、動態場景和參數化CAD模型的生成和編輯方面仍有大量工作要做。如何在保持實時性的同時不犧牲精度,如何在高斯球和網格、CAD等更適合工程應用的格式之間靈活轉換,是這個方向的核心問題。
---
歸根結底,這篇論文做的事情,是在一個迅速擴張、四面開花的領域裡,用一張清晰的地圖幫助讀者找到自己的位置。它不是一篇宣揚某個新方法有多厲害的論文,而是一篇認真整理了"我們現在知道什麼、我們還不知道什麼"的導航手冊。
對於普通人來說,這項研究最直接的意義是:你手機里的AR效果會越來越逼真,自動駕駛汽車對周圍環境的理解會越來越可靠,將來的機器人助手也許真的能像人一樣在三維空間中自如行動。這些不是遙遠的科幻,而是這篇"菜譜"所描繪的技術路線圖上,已經可以看到輪廓的事物。
對於這個領域的研究者來說,這張地圖同樣有價值——它清楚地標出了哪些地方是已經開墾的熟地,哪些地方是尚待探索的荒野,尤其是大規模多模態數據集的缺失、二維監督學習的潛力尚未充分挖掘,以及動態四維世界建模的挑戰,這些都是未來值得投入的方向。
如果你對這張地圖的細節感興趣,可以在arXiv平台通過編號2606.04291查閱完整論文,研究團隊還在GitHub上維護了一個持續更新的數據集列表,地址在論文首頁有完整標註,供社區持續參考和貢獻。
---
Q&A
Q1:三維高斯濺射(3DGS)和神經輻射場(NeRF)有什麼本質區別?
A:神經輻射場把整個場景編碼進一個神經網路,渲染時對每條光線上的大量點查詢網路,速度慢(每幀需要幾秒甚至更長)。三維高斯濺射則用大量顯式的三維橢球(高斯球)直接表示場景,配合高度優化的光柵化渲染器,將渲染速度提升到毫秒級,可以實時渲染。兩者都以多視角圖像作為輸入,但表示方式和渲染效率有本質差異,3DGS更快、更適合實時應用,NeRF理論上更靈活但更慢。
Q2:PointNet是什麼,為什麼處理點雲數據需要專門的網路?
A:點雲是三維空間中一堆沒有固定順序的散亂點,而傳統卷積神經網路需要數據排列在整齊的網格里(比如圖像的像素網格)。PointNet是第一個直接處理無序點集的深度學習網路,它用對稱函數(如最大池化)來處理點的無序性,使得不管點的輸入順序如何,最終提取的特徵都相同。PointNet之後,PointNet++、Point Transformer等方法進一步引入了層次化特徵提取和注意力機制,性能持續提升。
Q3:二維監督學習三維是什麼意思,為什麼這個方向重要?
A:三維數據採集成本極高,而網際網路上有數十億張二維圖片。"二維監督學習三維"是指用大量普通圖片而不是昂貴的三維掃描數據來訓練三維理解模型,核心技術是可微分渲染——讓模型渲染出圖片,再把渲染結果和真實圖片的差距作為學習信號反向傳播。DUSt3R、VGGT等方法都是這個方向的代表,它們能在幾乎不依賴三維標註的情況下,從圖片直接預測出三維坐標和相機位置,大幅降低了三維理解的數據門檻。






