這項由英國帝國理工學院(Imperial College London)電腦系領導的研究,於2026年6月23日以預印本形式發布,論文編號為arXiv:2606.24457。該研究已被收錄於2026年IEEE/CVF電腦視覺與模式識別會議(CVPR)相關成果系列,感興趣的讀者可通過上述編號查閱完整論文。
---
一、為什麼"讓機器看懂立體圖像"是個大麻煩
人類的雙眼天生就是一套立體感知系統。兩隻眼睛分別拍下略有差異的畫面,大腦把這兩張畫面合併處理,就能精準感知"這個茶杯離我有多遠"。這個過程對你而言不費吹灰之力,但對機器來說,卻是幾十年來電腦視覺領域一直在攻克的難題。
立體匹配(Stereo Matching)——也就是讓機器從一對左右攝影機拍攝的圖像中計算出每個像素的深度資訊——是自動駕駛、機器人導航、增強現實、工業檢測等眾多領域的核心技術。通俗地說,就是給機器裝上"立體眼睛",讓它能判斷"前方障礙物距離我三米"這類資訊。
現有的深度學習方案面臨一個棘手的兩難困境。追求精度的大模型雖然效果出色,但計算量驚人,就像一位博學的專家,什麼問題都能答得頭頭是道,卻需要好幾分鐘才能回答你一個問題。而追求速度的輕量級模型雖然跑得很快,卻普遍被認為"能力有限",尤其是在面對從未見過的新場景時(也就是所謂的"零樣本泛化"能力),往往表現欠佳,需要針對特定場景單獨調校才能用。
帝國理工學院的研究團隊認為,這種"精度與速度必然對立"的印象是可以被打破的。他們推出了名為 LAS2(Lite Any Stereo V2)的一系列超快速立體匹配模型,目標是在保持極低延遲的前提下,實現強大的零樣本泛化能力——也就是說,訓練好的模型無需針對新場景重新調整,就能直接在各類真實世界場景中準確工作。
---
二、問題的本質:一台要"同時快又准"的量體裁衣機
要理解研究團隊面臨的挑戰,可以用裁縫量體裁衣來打比方。
一位經驗豐富的老裁縫(大型精準模型)量體非常精準,做出來的衣服無論高矮胖瘦都合身,但每件衣服要花好幾天。一位快手裁縫(輕量級模型)速度極快,幾分鐘就能做出一件,但只擅長做某一類型的衣服,換個體型就容易出錯,更別說去做從未接觸過的款式了。
研究團隊的目標,是培訓出一位既快又能應對各種體型的裁縫——而且這位裁縫從未見過某個顧客,也能做出合適的衣服。
之所以"快手裁縫"通常無法做到這一點,原因有兩個層面。在架構層面,以往的輕量級模型為了加快速度,往往在關鍵的"成本聚合"步驟(也就是幫模型理解左右圖像之間哪些像素彼此對應的計算過程)上做了過多妥協,導致幾何資訊的理解不夠充分。在訓練層面,這類模型通常只在"人造合成數據"上訓練,而現實世界的光線、材質、遮擋等情況千變萬化,合成數據無法完全覆蓋,因此模型在真實場景下泛化能力不足。
LAS2 的研究貢獻就體現在同時從這兩個維度入手,提出了系統性的解決方案。
---
三、架構革新:扔掉笨重的"三維計算器",改用更聰明的平面方案
在深度學習立體匹配中,有一個核心步驟叫做"代價聚合"(Cost Aggregation)。簡單說,就是讓模型去計算:對於左邊圖像中某個像素點,右邊圖像中最可能與之對應的像素在哪裡?兩者之間的"距離差"就是深度資訊的來源。
傳統的精準模型通常使用"三維卷積"來完成這步工作——也就是在高度、寬度和深度差三個維度上同時進行密集計算。這就好比你要在一個三維空間裡密密麻麻地搜索每一個角落,雖然找得准,但工作量巨大。
研究團隊的前一版本 LAS 採用了"混合方案",結合了三維和二維兩種計算方式,但三維部分仍然帶來了不可忽視的計算開銷,在邊緣設備(如嵌入式晶片)上尤為明顯。
LAS2 做出的關鍵決定是:徹底去掉三維聚合,轉而採用純二維的代價聚合框架。這有點像把一個需要在整個倉庫里翻箱倒櫃的搜索任務,改成只需要看倉庫平面圖就能完成的工作——效率大幅提升,但需要設計一套足夠聰明的"平面搜索策略"來彌補損失的資訊。
為此,研究團隊採用了一種叫做"U-Net風格"的聚合網路。可以把它理解成一個先"壓縮"再"放大"的資訊處理流水線:首先把圖像逐步縮小到幾個不同尺度,在每個尺度上分別提取和整合匹配資訊,然後再逐步恢復到原始解析度。這個過程中,既能捕捉宏觀的場景結構,也能保留細節資訊。
更關鍵的一點是,研究團隊在選擇網路組件時,拒絕了僅僅參考理論計算量(MACs,乘加操作次數)的慣常做法,而是直接在真實硬體上測量推理延遲。這個區別聽起來細微,實際上非常重要。就好比買一輛車,廠商告訴你"發動機功率1000馬力",但實際上車身太重,上坡依然很慢。MACs只告訴你計算量有多大,卻不告訴你這些計算在特定晶片上能跑多快。
經過大量實驗對比,研究團隊最終選定了 FasterNet 作為特徵提取骨幹網路和代價聚合的基礎模組。FasterNet 雖然理論計算量略高於曾廣泛使用的 MobileNetV2,但在實際的 GPU 和嵌入式設備上跑得更快,更符合部署導向的設計目標。
LAS2 最終形成了一個小家族,分為 S(小型)、M(中型)、L(大型)三個前饋變體,以及一個更高精度的疊代變體 LAS2-H。前三者通過調整代價聚合模組的深度來平衡精度與速度,後者則在 LAS2-M 的基礎上引入了疊代細化機制進一步提升精度。
---
四、疊代變體 LAS2-H:讓快手裁縫學會反覆檢查自己的工作
LAS2-H 引入了一套疊代細化流程,可以看作是在快手裁縫做完初稿後,增加了一道"對著鏡子反覆檢查、修改"的工序。
具體來說,LAS2-H 先用 LAS2-M 快速生成一個初始的深度估計結果,同時保留計算過程中產生的中間表示——包括左右圖像的特徵圖和匹配代價資訊。然後,一個輕量級的循環神經網路(ConvGRU,一種能夠記住之前狀態的網路結構)在這個初始結果的基礎上,反覆查看局部的匹配資訊和圖像上下文,逐步修正誤差,經過 4 次疊代後給出最終預測。
這個設計有兩個聰明之處。首先,疊代細化模組復用了 LAS2-M 的預訓練權重,避免了從頭訓練的開銷,同時也繼承了 LAS2-M 已經學會的良好初始化能力。其次,整個疊代模組足夠輕量,每次疊代的計算量遠小於其他疊代式方法(如 IGEV 系列),因此 4 次疊代加起來的總延遲仍然顯著低於競爭對手。
---
五、訓練策略:三階段"從課本到實習再到真實工作"的培訓體系
架構設計好了,如何訓練才能讓這套系統在從未見過的真實場景中表現出色?這是 LAS2 另一個重要貢獻。
研究團隊設計了一套三階段訓練策略,可以類比為一個工匠的成長曆程:先在教室里學理論,再在學校工坊里練技藝,最後去真實工廠里接受帶教實習。
第一階段是在約 180 萬張合成數據上進行標準監督訓練。合成數據的好處是有精確的標註(每個像素的深度值都是已知的),但壞處是這些數據畢竟是電腦渲染出來的,和真實世界的光線、材質不完全一樣。研究團隊匯集了多個公認質量較高的合成數據集,包括 SceneFlow、FallingThings、FSD、CREStereo 等,共約 180 萬對立體圖像,從零開始訓練模型的基本立體匹配能力。
第二階段是自蒸餾(Self-Distillation)訓練,用來提高模型對輸入擾動的魯棒性。這個階段使用了一個巧妙的"老師-學生"設計:兩個結構完全相同的模型,老師接收正常的乾淨圖像,學生接收經過強烈擾動的圖像(如大幅度的亮度、對比度、色調隨機變化,加入高斯模糊,或隨機伽馬校正)。學生模型不僅要給出正確的深度預測,還要讓自己的特徵表示和老師的儘量一致,用餘弦相似度來衡量。
為什麼要這樣訓練?因為真實世界的圖像往往在光照、天氣、攝影機參數上千差萬別,如果模型只在"教科書級"的圖像上訓練,遇到陰天、強光、攝影機白平衡偏差就會表現失常。讓學生從被"干擾過的圖像"中學會和老師看同樣的特徵,等於在強迫模型提煉出對光照變化不敏感的本質視覺特徵。
經過實驗對比,研究團隊發現"老師權重固定不動"的方案效果最好,優於通過指數移動平均更新老師權重或每輪直接複製學生權重給老師的方案。這個結論有些出人意料,但結果相當穩健:固定一個標準答案,讓學生向它靠攏,反而比讓標準本身隨著學習過程漂移更有效。
第三階段是真實世界的知識蒸餾。這是整個訓練策略中提升最大的一環。研究團隊收集了約 50 萬對真實世界的無標註立體圖像,涵蓋室內和室外場景,包括 Flickr1024、InStereo2k、Holopix50K、DrivingStereo、SouthKenSV 和 UASOL 等多個數據集。由於這些圖像沒有真實深度標註,研究團隊用 FoundationStereo(一個高精度大模型)作為教師,為這些圖像生成"偽標籤"——也就是教師模型預測的深度圖。然後用這些偽標籤來微調 LAS2。
這相當於讓見多識廣的大師傅親自演示一遍,輕量級模型通過模仿大師傅在真實工件上的操作來提升自己的實戰能力,而不必依賴每一塊工件都有精確度量數據。
---
六、偽標籤不可全信:三道過濾網讓真實數據訓練更可靠
教師模型雖然能力出色,但它的預測也並非無懈可擊。如果直接把所有偽標籤都拿來訓練,模型反而會學到錯誤習慣。研究團隊因此設計了一套三層過濾機制,就像在往魚缸里加水之前,用三層不同孔徑的濾網先過濾一遍。
第一層是左右一致性檢驗。立體視覺有一個內在約束:用左攝影機圖像預測的視差(深度差值),應該和用右攝影機圖像反向預測的視差大體一致。如果兩者之間的差異超過一個像素,說明這個區域的預測可能不可靠(往往是遮擋區域或邊緣區域),對應像素就被標記為無效,不參與訓練。
第二層是邊緣感知過濾。教師模型有時會在紋理平滑的區域(如白牆、天花板)預測出突兀的深度跳變,這些跳變在真實世界中並不存在,僅僅是模型的"幻想"。過濾機制通過比較深度圖的梯度和原始圖像的梯度來檢測這類情況:如果深度圖某處有強邊緣,但對應圖像位置沒有明顯的視覺邊緣,這個區域就被判定為不可信,予以隱藏。
第三層是天空區域隱藏。天空是立體匹配的天然死穴,因為天空中幾乎沒有紋理特徵,左右圖像看上去完全一樣,模型無法從中找到有效的匹配資訊,任何預測都是不可靠的猜測。研究團隊使用了一個分割模型自動識別天空區域,將其完全排除在訓練之外。
這三層過濾產生一個"有效像素掩碼",只有被三層過濾都認可的像素才會參與損失計算。
除了過濾機制,研究團隊還引入了一個叫做"誤差截斷"(Error Clamping)的小技巧。在第三階段訓練初期,模型剛剛從合成數據過渡到真實世界,難免在一些困難區域犯大錯。這些少數高誤差像素如果不加處理,會"劫持"整個梯度更新,讓模型的優化方向跑偏。誤差截斷的做法很直接:給每個像素的損失設一個上限,超過這個上限就按上限計算,不讓少數極端錯誤主導訓練。
實驗表明,不使用誤差截斷時,所有指標都明顯變差;而截斷閾值設為 10 時效果最佳,過於寬鬆(閾值 20)或過於嚴格(閾值 5)都不如居中的選擇。
---
七、實驗結果:數字說明,但故事更重要
研究團隊在四個權威的真實世界立體匹配基準上進行了零樣本測試,這意味著模型在這四個場景的數據上沒有做過任何訓練,完全依賴泛化能力去預測。
這四個測試場景涵蓋了截然不同的環境:Middlebury 是精心布置的室內場景,用結構光掃描儀生成極高精度的深度標註;ETH3D 則是室內外兼有的灰度圖像場景,用雷射掃描儀標註;KITTI 2012 和 KITTI 2015 是在德國實際道路上駕車拍攝的戶外場景,用雷射雷達獲取稀疏深度標註。測試指標包括每像素平均誤差(EPE)和超過閾值的像素比例(D1 或 Bad-X)。
在前饋效率模型這個組別里,LAS2 系列全面壓過了此前的競爭對手。以中型版本 LAS2-M 為例,它相比前一代產品 LAS 在所有指標上均有改善,而推理延遲在 H200 伺服器 GPU 上從 12.7 毫秒降至 8.1 毫秒,在 NVIDIA Orin NX 8G 嵌入式設備上從 193 毫秒降至 101 毫秒,速度提升分別達到 1.6 倍和 1.9 倍。最小的 LAS2-S 在 H200 上只需 6.6 毫秒,在 Orin 上需 81 毫秒,是所有前饋模型中延遲最低的。
在疊代效率模型組別里,LAS2-H 同樣表現出色。與 Fast-FoundationStereo(該組別此前的最強競爭者)相比,LAS2-H 在 KITTI 兩個版本和 Middlebury 上精度更高,在 ETH3D 上持平,而推理延遲在 H200 上從 27.3 毫秒降至 15.1 毫秒,在 Orin 上從 918 毫秒降至 344 毫秒,速度提升分別達到 1.8 倍和 2.7 倍。
更值得注意的是,研究團隊還測試了另一個更具挑戰性的場景:DrivingStereo 天氣子集,包含晴天、陰天、霧天和雨天四種氣候條件。在這個測試中,LAS2 系列同樣全面領先於同類效率模型。特別有趣的是,LAS2-H 在這個基準上甚至超過了它的"老師"FoundationStereo(一個參數量大得多的精準模型),這說明經過精心設計的訓練流程,輕量級模型在某些場景下確實可以超越教導它的大模型。
在延遲對比方面,研究團隊刻意統一了測試協議,禁用了 torch.compile 這類實現層面的加速,確保所有方法在相同條件下比較。這一點很有意義:過去不同論文的速度數據往往因為測試條件不一而難以直接比較,這次的統一測試給出了更可靠的基準。
---
八、消融實驗:拆開每一個零件,看看它到底有沒有用
研究團隊還系統地做了一系列"拆零件測試"(消融實驗),驗證每個設計選擇的實際貢獻。
在架構選擇上,對比六種不同的骨幹網路(ConvNeXt、MobileNetV2、MobileNetV3、EfficientNetV2、FasterNet、GhostNet)在代價聚合模組上的表現,FasterNet 以最低的 Orin 延遲(107 毫秒)和相當強的整體精度勝出。尤其是 ConvNeXt,理論計算量(MACs)比 FasterNet 低,但在 Orin 上的實際延遲卻高出整整 55 毫秒,有力地證明了"MACs 不等於延遲"這一核心觀察。
在訓練策略上,數據表明三個階段各自貢獻了可觀的性能提升,且每個階段都不可缺少。以 KITTI 2012 的 D1 指標為例,第一階段結束時為 4.21%,第二階段結束後降至 3.59%,第三階段結束後進一步降至 2.88%,每個階段都帶來了實質性改善。
在偽標籤過濾設計上,左右一致性檢驗貢獻了最大的單項改進,邊緣掩碼進一步優化了平衡性,天空掩碼對這幾個測試集影響有限(因為測試集本身天空較少),但考慮到真實部署場景中天空區域普遍存在,研究團隊仍保留了這一機制。
對於訓練數據規模,研究發現僅僅增加數據量並不必然提升性能。將 Stereo4D(140 萬額外圖像對)或 Xperience(360 萬額外圖像對)加入第三階段訓練後,性能反而下降。究其原因,Stereo4D 的圖像解析度有限,細節資訊不夠;Xperience 的數據質量和場景多樣性達不到要求。這個發現強調了一個重要原則:數據質量和場景多樣性比數據量更重要。
研究團隊還驗證了這套訓練策略的普適性,將其應用到 LightStereo-M 和 BANet-2D 兩個第三方模型上,結果兩者均獲得了大幅提升,而且明顯優於這些模型原本的訓練策略,證明這套三階段方案不是專門為 LAS2 量身定製的特殊技巧,而是具有普適價值的訓練配方。
---
九、局限與展望:坦誠面對尚未解決的問題
研究團隊在論文中也坦誠地列出了 LAS2 目前的局限性,這種誠實態度本身就值得認可。
首先,與那些藉助 Depth Anything 等大規模單目深度基礎模型先驗的高精度系統相比,LAS2 仍然存在一定的性能差距。這些大型系統掌握的語義和幾何先驗更加豐富,對物體類別和場景結構的理解更深入,這不是僅僅改進代價聚合和訓練策略就能彌補的差距。
其次,高質量的真實世界立體圖像數據仍然是瓶頸。雖然第三階段使用了 50 萬對真實圖像,但與單目深度模型可以使用的億級網路圖像相比,規模上差異懸殊。立體圖像的特殊之處在於必須是經過嚴格校正的成對拍攝,這限制了可用數據的來源,而這一數據瓶頸從根本上制約了當前效率立體模型的性能上限。
此外,研究團隊用真實圖像的可視化展示了一類共同的失敗案例:強烈反光的金屬或玻璃表面、透明物體、極端的逆光或曝光過度場景,以及幾何資訊極度模糊的大面積平滑區域。這些場景對當前所有立體匹配方法都是挑戰,LAS2 也不例外,顯示出這類問題需要超越現有範式才能根本解決。
---
說到底,LAS2 這項研究最值得肯定的地方,是它用紮實的工程工作和系統的實驗設計,推翻了一個長期存在的"常識"——輕量級立體匹配模型天然無法擁有強大的零樣本泛化能力。事實證明,通過更合理的架構設計(擁抱純二維聚合、用實測延遲而非理論計算量做指導)和更精心設計的訓練流程(三階段遞進、真實世界偽標籤與高質量過濾機制),輕量級模型完全可以在真實世界多樣場景中表現出色,甚至在某些基準上超越比自己大得多的模型。
這對於機器人、無人機、智能汽車、VR 設備等對計算資源高度敏感的應用場景來說,是一個真實可用的技術進展。當這類技術足夠成熟,你手機上的攝影機或者家裡的掃地機器人就能以更低的功耗準確理解周圍三維空間,而不再需要專門的昂貴硬體。
對於對這個方向感興趣的讀者,一個很自然的思考是:如果真實世界立體圖像數據規模是當前的主要瓶頸,那麼未來有哪些途徑可以低成本地大規模獲取高質量的真實世界立體數據?這可能是這個領域接下來幾年最值得關注的研究方向之一。希望深入了解技術細節的讀者,可以通過 arXiv 編號 2606.24457 查閱完整原文。
---
Q&A
Q1:LAS2 系列模型和普通的深度估計模型有什麼本質區別?
A:LAS2 是立體匹配模型,需要同時輸入左右兩個攝影機的圖像,通過計算兩張圖中像素的位置差來推斷距離;普通深度估計模型只需要一張圖,靠學習語義先驗來猜測深度,缺少幾何精確性。LAS2 的設計目標是快、准、泛化強,適合需要實時部署在邊緣設備(如嵌入式晶片)上的應用。
Q2:LAS2 的三階段訓練策略為什麼比直接用真實數據訓練效果更好?
A:直接用真實數據訓練面臨兩個問題:真實數據沒有精確標註,而且真實場景和模型初始化差距過大容易訓練不穩定。三階段策略先用有精確標註的合成數據建立基礎能力,再通過自蒸餾增強魯棒性,最後用經過嚴格質量過濾的真實偽標籤做平滑遷移,每個階段解決不同層面的問題,疊加效果顯著優於任何單階段方案。
Q3:LAS2 在哪些真實設備上做過測試,實際速度怎麼樣?
A:LAS2 在多款 GPU(RTX 4090、A5000、A100、H200)和 NVIDIA Orin NX 8G 嵌入式平台上均做了測試。以中型版本 LAS2-M 為例,在 H200 上僅需約 8 毫秒,在 Orin NX 8G 的最大性能模式下約 101 毫秒,比同類前饋競爭對手快 1.6 至 1.9 倍,且可以在不超出內存限制的前提下部署於邊緣設備,而多個大型競爭模型在 Orin 上直接因內存不足而無法運行。






