香港科技大學（廣州）聯合西安交通大學：一個AI模型，同時搞定所有3D視覺任務？

這項由香港科技大學（廣州）系統樞紐智能交通方向、西安交通大學人機混合增強智能國家重點實驗室以及Amazon應用科學部門聯合完成的研究，以預印本形式於2026年5月20日掛載於arXiv平台（論文編號：arXiv:2605.21131），同時以題為《UNIT: Unified Geometry Learning with Group Autoregressive Transformer》投稿至IEEE模式分析與機器智能彙刊（IEEE Transactions on Pattern Analysis and Machine Intelligence）審稿中。有興趣深入了解的讀者可以通過上述編號在arXiv上檢索完整原文。

贊助商廣告

**用一台相機，讀懂整個三維世界**

手機拍照時，相機記錄的只是一張平平的二維圖片。但人類的大腦能夠從這張圖片中自動"腦補"出深度、距離和立體結構——哪塊石頭在遠處，哪棵樹在近處，人群中哪個人離你更近。這種從二維圖像中恢復三維世界的能力，正是"3D幾何感知"（Geometry Perception）的核心任務，也是讓機器人、自動駕駛汽車、增強現實眼鏡真正"看懂"世界的關鍵技術。

過去幾年，研究者們已經開發出了一批相當出色的AI模型來完成這項工作。然而，一個令人頭疼的問題始終存在：每一種模型都只擅長某一類場景，要麼只能處理靜態的多張照片重建，要麼只能實時處理影片流，要麼需要配合相機參數，要麼只能做相對比例的估算。這就像一家餐廳里，煎蛋的廚師不會炒菜，炒菜的廚師不會烤麵包，烤麵包的又不懂甜品——每個人都很專業，但你想吃一頓完整的飯卻要跑好幾家館子。

研究團隊提出的UNIT（Unified geomeTry learning），正是試圖打造這樣一位"全能廚師"：用一個統一的模型框架，把所有這些3D視覺任務都納入同一套處理流程中。

**一、被割裂的三維視覺世界：五種能力，五座孤島**

要理解UNIT解決了什麼問題，先要明白現有技術的割裂有多嚴重。

在3D幾何感知領域，有五種核心能力一直以來各自為戰，無法統一到同一個框架下。第一種是"在線感知"，即實時處理連續影片流，就像一個人走路時眼睛不停掃描周圍環境，逐幀更新對世界的認知。第二種是"離線重建"，即先把所有照片都收集好，然後一次性統一處理，生成完整的三維場景模型，就像考古學家把所有出土文物擺在桌上，仔細研究它們之間的關係。第三種是"多模態融合"，即不僅用圖像，還能藉助深度傳感器、相機參數等額外資訊來增強重建精度，如同偵探不只看目擊證詞，還要結合現場指紋和監控錄像。第四種是"長時程可擴展性"，即面對幾百甚至幾千幀的超長序列時，系統的內存消耗和計算量不會無限膨脹，否則在真實世界中根本無法使用。第五種是"真實尺度估算"，即恢復出以"米"為單位的實際物理尺寸，而不僅僅是相對比例關係——畢竟，知道"這個房間是那個房間的兩倍大"遠不如知道"這個房間是20平方米"有用。

贊助商廣告

現有的代表性模型各自只掌握了其中幾種能力。比如CUT3R擅長在線影片流處理，但對離線多視角重建並不友好；VGGT專注於離線場景下的高質量三維重建，卻不支持逐幀實時推斷；MapAnything在離線模式下整合了多種傳感器模態和真實尺度估算，但無法處理長時程序列。這種能力的碎片化，讓開發者在實際應用中不得不針對不同場景切換不同系統，極大增加了工程複雜度。

研究團隊意識到，這種割裂並非不可彌合，而是源於不同方法對"幾何建模"做出了根本不同的假設。正是這種假設上的分歧，阻止了一個統一框架的出現。

**二、全能廚師的秘密武器：組自回歸變換器**

研究團隊提出的核心思想，可以用一個廚師備菜的比喻來理解。

普通廚師每次只處理一道菜（一幀圖像），按照時間順序一道一道地做，這就是傳統的"在線"逐幀處理模式。另一種極端是，把所有食材全部鋪在大桌子上，同時看清楚所有原料再統一烹飪，這是"離線"的批量處理模式。那麼，如果廚師每次捧起一"組"食材——比如兩道菜、四道菜同時處理——會發生什麼？這就是UNIT的核心創意：**組自回歸**（Group Autoregression）。

在UNIT的框架里，"組"就是每次統一處理的若干幀圖像，研究者用字母G來表示組的大小。當G等於1時，系統就退化為傳統的在線逐幀處理；當G等於序列總長度N時，系統就變成了完整的離線批量處理；當G取中間某個值——比如2、4或8——時，系統就能高效處理雙目相機流、多目相機陣列等多同步視角場景，這在機器人和自動駕駛中極為常見。

更精妙的是，組內部的幀之間使用"雙向注意力"——意思是每一幀都能自由地參考同組內其他所有幀的資訊，就像同一時刻捕獲的多路鏡頭可以互相印證；而不同組之間則使用"因果注意力"——意思是當前組只能參考之前的歷史資訊，不能"偷看"未來的幀，就像一個偵探只能根據案發前的線索來推理，而不能從結果倒推過程。這種"組內雙向、組間因果"的注意力結構，被研究團隊形象地稱為"組因果掩碼"，通過在注意力矩陣中把未來幀的位置設為負無窮，實現了靈活可控的時序約束。

贊助商廣告

整個系統以VGGT（視覺幾何基礎變換器）為基礎進行改造和擴展。圖像首先通過DINO（一種視覺特徵提取器）被拆解成一塊塊"圖像令牌"，然後經過兩種交替的注意力層處理：幀注意力層負責理解單幀內部的局部關係，全局注意力層負責捕捉不同幀之間的跨時間關係。最終，經過處理的特徵令牌會被解碼為全局點圖（即每個像素對應三維空間中一個坐標點的密集輸出），以及每一幀的相機姿態（即相機在空間中的位置和朝向）。

**三、解決記憶爆炸：像地鐵站台一樣管理歷史資訊**

自回歸模型處理影片時會面臨一個棘手問題：需要把所有歷史幀的"鍵值緩存"（KV-Cache）保存在內存里，因為當前幀需要參考之前所有幀的資訊。這就好比你在講一個很長的故事，為了保證邏輯連貫，你需要隨時翻閱之前講過的所有內容。隨著影片越來越長，需要記憶的內容越來越多，內存消耗會線性乃至爆炸性增長。StreamVGGT雖然引入了KV緩存機制，但依然保存所有歷史條目，面對超長序列時依然力不從心。

UNIT的解法是一個極其簡潔的機制：**隊列式KV緩存**（Queue-Style KV Caching）。就像地鐵站台的候車區域有固定數量的等候位，新的乘客到來時，最早的乘客就必須離開。UNIT設定一個固定的隊列容量Q，當歷史幀的緩存條目超過這個上限時，最老的記錄就被自動丟棄。這樣無論影片有多長，內存消耗始終被限定在O(Q)以內，而不是隨序列長度N線性增長。

然而，簡單地丟棄歷史記錄會帶來嚴重問題：如果模型對早期幀存在強依賴，強行刪除那些記錄會導致精度大幅下降。傳統的方法之所以不敢丟棄早期幀，正是因為所有的3D坐標都是以第一幀的位置為參考原點來定義的——一旦丟失第一幀，整個坐標系就會崩塌。

這就引出了UNIT另一個精妙的設計：**無錨點關係建模**（Anchor-Free Relational Modeling）。研究團隊借鑑了π?模型中的無錨點損失函數，將相機姿態的描述方式從"以第一幀為基準的絕對坐標"改為"任意兩幀之間的相對變換"。這就像導航時不說"從家出發走了500米"，而說"從上一個路口左轉再走100米"——只要記住局部的相鄰關係，而無需始終追溯到出發點。

贊助商廣告

具體實現上，UNIT設計了無錨點相機頭（Anchor-Free Camera Head），將相機姿態重參數化為相對變換：第i幀相對於第j幀的位姿等於第i幀的絕對姿態乘以第j幀絕對姿態的逆矩陣。這種表示方式對任何整體坐標變換都是不變的，即使把整個場景旋轉或平移，相對關係也不會改變。因此，歷史幀的KV緩存條目不再攜帶對早期幀的強依賴，可以安全地在容量超限時被丟棄。

與此同時，原本VGGT中的相機頭需要四次前向計算才能疊代輸出結果，UNIT將其簡化為單次直接預測，在大幅降低計算開銷的同時，也讓KV緩存的管理變得簡潔許多。

為了決定如何具體丟棄超限的歷史令牌，研究團隊測試了四種策略：先進先出（直接丟最老的）、隨機丟棄、通過相鄰令牌插值進行令牌合併，以及按固定間隔步長跳躍保留。實驗結果表明，按步長跳躍保留（Stride Drop）的效果最好，它保留了間隔均勻分布的歷史快照，像電影中的抽幀剪輯，既節省空間又保持了敘事完整性。

**四、讓AI學會"真實比例"：一個循序漸進的訓練技巧**

3D視覺中有一個長期困擾研究者的難題——"尺度歧義性"。相機拍到的圖像本質上丟失了深度資訊，從一張照片裡你能看出哪個物體更遠、哪個更近，但你無法知道實際距離是10厘米還是10米。大多數模型因此只能輸出相對尺度的結果，告訴你"A比B遠兩倍"，但說不出"A距離鏡頭3.5米"。

直接學習絕對尺度（以米為單位的真實距離）是極其困難的，因為不同場景之間的尺度差異極大——室內家具和室外建築的深度範圍可以相差幾十倍。如果訓練時用一個固定強度的損失函數直接要求模型預測米制單位的絕對深度值，模型往往會在某些場景過度適應，在另一些場景完全失效。

UNIT提出的解決方案叫做**尺度自適應幾何損失**（Scale-Adaptive Geometry Loss）。這個方法的核心思路是：不要一上來就強迫模型死磕絕對尺度，而是先讓它把相對幾何關係學得又快又好，隨著訓練推進，絕對尺度自然而然地從相對關係中"浮現"出來。

贊助商廣告

具體實現時，損失函數由三個部分組成。第一部分是尺度無關的相機姿態損失，它只要求預測的相機旋轉和位移方向正確，不在乎絕對大小——就像考察一個人的方向感，只看他走的方向對不對，不管他走了幾步。第二部分是尺度無關的局部點圖損失，要求預測的三維點位置在去除全局尺度因子後與真值一致，數學上等價於先算出整個序列預測深度圖的L2範數和真實深度圖的L2範數，用這兩個數的比值來做歸一化。第三部分是絕對尺度的局部點圖損失，直接要求預測的三維點坐標（以米為單位）與真值匹配，同時引入置信度加權——模型對自己預測越有把握的區域，損失權重越大，不確定的區域則自動降低懲罰。

三個部分共同作用時，會產生一種自動課程學習（Curriculum Learning）的現象：訓練初期，模型優先收斂相對幾何約束，因為這更容易學習；隨著相對幾何越來越精準，絕對尺度的約束也逐漸把全局尺度因子拉向真實值，最終誘導模型輸出米制單位的絕對深度。研究團隊在消融實驗中驗證了這一現象，相比於直接用L1損失函數做米制空間的回歸（類似CUT3R的做法），尺度自適應設計在米制尺度下的重建精度提升極為顯著。

在此基礎上，研究團隊還引入了一種叫做"亂序法向損失"（Shuffled Normal Loss）的額外約束。普通的法向損失是在單幀內計算相鄰像素點構成的局部曲面法線，確保局部幾何一致性。亂序法向損失則更進一步：從不同幀中隨機採樣像素點，強行把它們組成"虛擬曲面"，然後計算這些跨幀點構成的法線，以此鼓勵不同幀之間的全局幾何一致性。由於使用了無錨點的坐標系表示，這一損失同樣不依賴固定參考幀，對整個系統的全局一致性有顯著增強作用。

**五、讓AI"聽懂"多種傳感器：模態注意力層**

現實世界的3D感知系統往往不只有一個RGB攝影機，還可能配備雷射雷達、深度相機、已知相機內外參等各種傳感器。UNIT通過一個精心設計的**模態注意力層**（Modal Attention）來靈活整合這些可選的額外資訊。

贊助商廣告

這些可選模態資訊分為兩類。第一類叫"點令牌"，負責提供密集的幾何資訊：深度圖與從相機內參推導出的局部射線圖（Local Ray Map）拼合編碼。之所以用射線圖而不是直接用內參數值，是因為射線圖保留了每個像素的像素坐標資訊，包含了更豐富的空間位置線索，就像給每個像素貼上了一張精確的地址標籤。第二類叫"姿態令牌"，負責提供緊湊的相機參數資訊：將12維的相機外參（旋轉矩陣加平移向量的展開表示）直接編碼為一個緊湊的向量。所有缺失的模態以全零矩陣表示，實現了對不完整輸入的優雅處理。

模態注意力層的設計與標準交叉注意力機制相似，但有一個關鍵改進：在計算注意力時，圖像令牌和模態令牌被沿著空間位置對齊後拼接（Concatenate）在一起作為鍵和值，而不是分別作為獨立的輸入。這種拼接方式將像素級的空間對應關係直接注入了跨模態融合過程，讓模型能夠在正確的空間位置上將視覺資訊與深度資訊結合起來，就像把同一場地的平面圖和立體模型疊放在一起對照，而不是分開擺放隨機參考。

此外，模態注意力層在輸出端使用了零初始化線性投影層。這一技巧的妙處在於：訓練剛開始時，新加入的模態注意力模組的輸出全為零，對原始圖像令牌沒有任何干擾，系統的行為與加載的VGGT預訓練權重完全一致；隨著訓練進行，該層權重逐漸從零開始學習，模型以一種漸進、穩定的方式吸收多模態知識，完整繼承了預訓練模型的視覺理解能力。

為了控制整體參數量，模態注意力層並非插入到每一層變換器中，而是遵循DPT解碼頭的階段劃分，在24層變換器的第0、5、12、18層各插入一次，共四個位置。這四個模態注意力模組加在一起，僅占整體模型參數的約3%，卻帶來了顯著的多模態能力提升。

**六、訓練數據與實現細節：二十一個數據集的"大鍋飯"**

為了讓UNIT在真實世界的各種場景下都能表現出色，研究團隊匯聚了21個公開的米制尺度數據集進行訓練，覆蓋室內場景（ScanNet++、ARKitScenes、ScanNet、Matterport3D、DynReplica、Hypersim）、室外場景（Waymo、Mapfree、VKITTI、MVS-Synth、ParaDomain4D、GTA-SfM、MatrixCity、Mid-Air）、混合場景（UnrealStereo4K、TartanAir、PointOdyssey、Spring）、物體級場景（WildRGBD、OmniObject3D）以及以人為主體的場景（HuMMan）。這些數據集橫跨真實拍攝與合成渲染兩大來源，包含靜態與動態物體，覆蓋從室內家具（深度約1米）到室外建築（深度可達數百米）的極大尺度範圍。

贊助商廣告

訓練中，純圖像序列以10%的概率採樣，多模態混合序列以90%的概率採樣。在多模態採樣時，深度圖、相機內參和相機外參三種可選模態各自以50%的獨立概率決定是否納入該批次，從而模擬真實部署中各種傳感器組合缺失的情況。

深度圖的模擬傳感器類型包括均勻隨機採樣（0%到100%密度）、雷射雷達掃描線模式（1線到128線）、SfM特徵點（用SIFT提取）以及超解析度網格下採樣（1到16倍因子），覆蓋了深度補全任務中可能遇到的各類稀疏模式。

模型初始化時加載VGGT的預訓練權重，使用AdamW優化器，對預訓練參數設定較小的學習率（1×10??），對新引入模組設定較大學習率（1×10??），DINO編碼器在整個訓練過程中保持凍結。訓練解析度為518（短邊），隨機寬高比範圍0.33到1.0，序列長度動態採樣12到24幀，組大小G在1到24之間隨機採樣。整個訓練在64張H100 GPU上以每卡48張圖像的批次大小進行80,000步，歷時超過7天。

旋轉的參數化方式也從VGGT原版的四元數表示改為9維旋轉，通過奇異值分解（SVD）正交化得到，避免了四元數表示在旋轉空間中的不連續性問題，提升了訓練穩定性。

**七、實驗驗證：十個數據集，七種任務，全面檢閱**

研究團隊在十個基準數據集上對UNIT進行了全面測試，涵蓋七類有代表性的幾何感知任務，所有實驗均在單張RTX 4090 GPU上完成。

在多視角重建任務上，評測數據集包括室內真實場景的7-Scenes、合成室內場景的NRGBD，以及面向物體重建的DTU。評測指標包括精度（Acc.，預測點到真實點的平均距離）、完整性（Comp.，真實點到預測點的平均距離）以及法線一致性（N.C.）。所有方法先在尺度無關的設置下測試（使用Sim(3)對齊消除尺度差異），再在米制尺度設置下測試（直接比較絕對坐標，不做任何對齊）。UNIT（G=N離線模式）在7-Scenes上的精度0.027和完整性0.032顯著優於其他離線方法（VGGT為0.043和0.056，π?為0.047和0.073，DepthAnything3為0.054和0.101），在NRGBD和DTU上也全面領先。在米制尺度下，UNIT（G=N）的表現同樣最佳，7-Scenes精度0.047、完整性0.042，而MapAnything為0.406和0.166，DepthAnything3為0.074和0.087。UNIT（G=1線上模式）在在線方法中也排名第一，無論是尺度無關還是米制尺度設置均如此。

贊助商廣告

在相機姿態估算任務上，使用三個數據集：合成室外場景Sintel、真實室內TUM-Dynamic和ScanNetv2。評測指標為絕對軌跡誤差（ATE，相機路徑的整體偏差）、相對位移誤差（RPEtra）和相對旋轉誤差（RPErot）。UNIT在尺度無關在線、米制在線、米制離線三個設置下均排名第一，在尺度無關離線設置下排名第二，在綜合排名中以1.44的平均排名（越小越好）領先所有基線方法（π?為1.56，VGGT為3.33，CUT3R在線為2.44）。

影片深度估算任務在Sintel、Bonn和ETH3D三個數據集上進行，評測指標為絕對相對誤差（AbsRel）、均方根誤差（RMSE）和在1.25倍誤差閾值內的預測比例（δ

單目深度估算任務（僅用單張圖像，無多幀參考）在Sintel、KITTI和NYUv2三個數據集上測試。UNIT在米制設置中以1.78的綜合排名位居第一（MapAnything為2.33，DepthAnything3為3.00），在尺度無關設置中以2.22排名第二（π?為2.11）。研究團隊還觀察到一個有趣的現象：單目設置下，離線與在線方法之間的性能差距比多幀設置下明顯縮小，這可能是因為離線方法的訓練往往依賴至少兩幀之間的多視圖約束，而單目訓練可以直接從單幀深度標註中學習。

長時程感知任務在NRGBD數據集上測試，每個場景約有1000幀，研究團隊以步長2採樣出500幀，然後在50到500幀不同序列長度下分別評測。DepthAnything3的離線模式在序列長度約300幀時就因為內存溢出而無法繼續運行；CUT3R雖然支持長序列，但在300幀時的姿態估算誤差（ATE約0.7m）已經明顯劣於DepthAnything3的短序列結果（約0.35m）。UNIT得益於統一框架，可以靈活地在離線和線上模式之間切換：對於前150幀使用離線模式獲得高精度結果，然後以這150幀建立的KV緩存為基礎，繼續用線上模式處理後續更長的序列，隊列容量Q也設為150。這種混合推斷策略使得UNIT在整個500幀範圍內都保持了明顯優於CUT3R的精度，同時避免了DepthAnything3的內存爆炸問題。

贊助商廣告

多模態重建任務在7-Scenes、ETH3D和ScanNetv2三個數據集上測試，涵蓋七種不同的模態組合：僅相機內參K、僅相機外參[R|T]、僅深度圖D，以及K+[R|T]、K+D、[R|T]+D和K+[R|T]+D的全組合。UNIT在絕大多數組合下排名第一。值得注意的例外是，在所有三種模態全部提供的情況下，MapAnything以1.44的綜合排名略優於UNIT的2.22。研究者分析認為，這可能是因為MapAnything從頭開始在多模態數據上訓練，對完整多模態輸入的適應性更強；而UNIT在大部分時間裡以不完整模態輸入進行訓練，對全模態場景的充分利用可能略有欠缺。

深度補全任務在Sintel、KITTI和NYUv2上測試，為模型額外提供四種不同稀疏模式的深度點雲作為先驗。無論是均勻隨機採樣、雷射雷達掃描線、SfM特徵點還是超解析度網格模式，UNIT都在全部場景下排名第一。研究者認為這一優勢部分來自其在訓練時已系統性地模擬了多種深度採樣模式，減小了訓練與測試時的分布差異。

**八、消融實驗：每一個設計細節都經過了嚴格檢驗**

研究團隊通過一系列消融實驗，仔細驗證了各個組件設計的必要性。

對於模態注意力層，實驗對比了四種變體。用簡單線性投影替代模態注意力時，性能出現顯著下降，說明跨模態融合的設計至關重要。去掉空間對齊拼接操作（只保留標準交叉注意力）時，性能也有所下降，證明像素級空間對應關係對多模態融合有實質性幫助。僅在單一階段插入模態注意力（而非四階段）時，性能也不如四階段版本，說明在多個尺度層次上注入模態資訊更為充分。完整的四階段+拼接設計在圖像單模態和多模態兩種設置下均獲得最好結果。

對於損失函數設計，直接在米制空間使用L1回歸損失（類似CUT3R的做法）時，在離線和在線的米制尺度設置下精度最差，綜合分數0.188；引入尺度自適應設計後大幅改善，綜合分數降至0.092；在此基礎上加入亂序法向損失後進一步提升至0.091，而且對在線米制設置幫助尤為明顯。

贊助商廣告

對於KV緩存丟棄策略，五種策略的實驗結果清晰地顯示步長跳躍保留效果最佳（ATE 0.038），優於先進先出（0.047）、隨機丟棄（0.041）和令牌合併（0.041），而完整保留所有歷史緩存則獲得0.037的最佳ATE，說明步長跳躍在有限容量下最大化保留了對當前幀有用的歷史資訊。更關鍵的發現是：即使是最簡單的先進先出策略，其性能（0.047）也遠好於沒有KV緩存機制時的情況，這有力地證明了隊列式緩存本身的有效性。

對於KV緩存隊列容量，實驗覆蓋了從Q=1到Q=90（即完整序列長度）的全範圍。結果顯示隨著容量增大，精度穩步提升，Q=30能在性能和效率之間取得良好平衡。對於組大小G，實驗同樣顯示更大的組能帶來更好的精度，因為更多幀可以在組內通過雙向注意力相互印證；同時，模型在G從1到90的寬廣範圍內都保持了相當穩定的性能，展現出統一框架設計的魯棒性。

在計算效率對比上，UNIT（G=N離線模式）以每秒33.83幀的推理速度和8.1GB內存占用，成為所有對比方法中速度最快、內存最小的離線方法（VGGT為31.98幀/秒、11.7GB，π?為46.18幀/秒但內存6.4GB）。UNIT（G=1，Q=1最輕量線上模式）的速度為20.41幀/秒、6.7GB內存，明顯快於StreamVGGT的11.50幀/秒、9.6GB內存。增大Q會降低速度、增加內存，但提升精度：Q=N/3時為16.44幀/秒、7.4GB，Q=N時為13.38幀/秒、9.1GB。

**歸根結底，UNIT意味著什麼？**

UNIT這項研究的意義，在於證明了"統一"不僅僅是一個美好願景，而是完全可以在不犧牲性能的前提下實現的工程目標。通過組自回歸機制、無錨點建模、隊列式緩存和尺度自適應訓練這四個彼此協作的設計，一個模型得以在在線影片流、離線多視角重建、多模態輸入、長時程序列和米制尺度估算這五個維度上同時達到業界領先水平。

對於機器人開發者而言，這意味著不再需要為室內導航和室外建圖分別訓練不同的深度估算模組；對於自動駕駛工程師而言，這意味著同一個模型可以同時處理前置單目攝影機、雙目攝影機陣列和雷射雷達深度先驗，而無需構建複雜的多模型融合管道；對於增強現實應用而言，這意味著一個輕量級的統一模型可以在手機上同時支持室內空間測量和室外導航標註。

贊助商廣告

當然，研究也指出了一個值得關注的局限性：當所有傳感器模態都完整可用時，專門在完整多模態數據上從頭訓練的MapAnything在多模態重建上略有優勢，說明在全模態充分利用方面UNIT還有提升空間。

UNIT的項目主頁可通過搜索"sc2i-hkustgz UNIT"找到，感興趣的讀者也可以直接在arXiv上檢索編號2605.21131獲取完整論文和技術細節。隨著這一方向的持續發展，或許我們正在見證3D視覺感知領域從"百家爭鳴"走向"大一統"的轉折點。

---

**Q&A**

Q1：UNIT模型的"組自回歸"是怎麼工作的？

A：組自回歸是UNIT的核心機制，簡單說就是把若干張圖像當作一個"組"來同時處理。組內的圖像互相參考彼此的資訊（雙向注意力），組與組之間只能參考歷史組的資訊（因果注意力）。調整每次處理的圖像數量（組大小G），就能靈活切換在線逐幀處理和離線批量重建兩種模式，甚至處理多攝影機同步拍攝的情況。

Q2：UNIT如何做到處理超長影片時內存不爆炸？

A：UNIT使用了"隊列式KV緩存"機制。系統設定一個固定的歷史記錄容量上限Q，新的幀進來時，最老的歷史記錄就被自動丟棄，內存始終維持在固定大小。這之所以可行，是因為UNIT採用了無錨點坐標表示，三維坐標用相鄰幀之間的相對位置描述，而不依賴第一幀作為參考，所以歷史幀被刪掉後不會影響當前幀的計算。

Q3：UNIT輸出的深度單位是米還是相對比例？

A：UNIT支持兩種模式。在多數評測場景下，UNIT能直接輸出以米為單位的絕對深度值，這要歸功於其"尺度自適應幾何損失"設計——訓練時讓模型先學會相對幾何關係，再自然過渡到絕對尺度，避免了直接學習米制尺度時收斂困難的問題。當然，在尺度無關的測試設置下，它同樣可以只輸出相對比例結果。