這項由丹麥技術大學電氣與光子工程系及先鋒人工智慧中心聯合主導、並與建築企業Christiansen & Essenbaek A/S合作完成的研究,於2026年6月發布在arXiv預印本平台,論文編號為arXiv:2606.23152。研究得到歐盟地平線歐洲項目"RoBétArmé"(批准協議號101058731)的資金支持。有興趣深入閱讀原文的讀者可通過該編號在arXiv上查閱完整論文。
在地下隧道或礦井裡,工人們正在用一根粗大的軟管向岩石或混凝土牆壁噴射快速凝固的混凝土,這種工藝叫做"噴射混凝土"(shotcrete)。這是一種加固不穩定地下結構、修復損壞建築或構建複雜幾何形狀的關鍵施工手段。然而,噴射過程中大量混凝土顆粒會彈射反彈並懸浮在空氣中,整個封閉空間瞬間變成一片灰白色的濃霧,能見度急劇下降,人待在裡面需要全副武裝的防護設備。
如果我們希望用機器人代替人類完成這項又髒又危險的工作,首先要解決的就是讓機器人"看清楚"自己在哪裡、前方有什麼、牆壁距離多遠——也就是說,機器人需要一雙能在粉塵漫天的環境中可靠工作的"眼睛"。這項研究的核心貢獻正在於此:研究團隊實地採集並發布了一個名為**ShotcreteDepth**的雙模態數據集,同時配套發布了一個輕量級標註工具,為未來開發能在這種極端環境中正常工作的機器視覺系統提供了至今為止第一份公開可用的基礎資料。
一、為什麼噴射混凝土環境對機器人的"眼睛"來說是一場噩夢
要理解這份數據集的價值,首先得感受一下噴射混凝土現場究竟有多惡劣。把它與我們日常生活做個對比:你在廚房炒辣椒時,油煙和辣椒粉嗆得人睜不開眼,拍出來的手機照片也是模糊一片。噴射混凝土現場的情況比這嚴重許多倍——混凝土顆粒密集地懸浮在完全封閉的地下空間裡,照明只有人工燈光,有些地方過亮,有些地方則漆黑一片。
機器人常用的兩種"眼睛"在這種環境下都會出問題。一種是立體攝影機,它的工作原理就像人的兩隻眼睛一起看,通過左右兩張圖片的細微差異來判斷距離——就好像你用左手遮住左眼再遮住右眼,近處的物體"位置"會明顯跳動,遠處的則幾乎不變,這個"跳動量"就是判斷距離的關鍵。但當空氣中充滿粉塵、畫面變得模糊時,兩張圖片裡的"特徵點"很難對應起來,測距就變得不準確。
另一種是雷射雷達(LiDAR),它通過發射雷射束並測量反射回來的時間來計算距離,就像蝙蝠的回聲定位。然而,密集的混凝土顆粒會把雷射束散射掉,導致三種糟糕的後果:雷射被顆粒"吸收"或偏轉,根本沒有信號返回,造成大量數據缺失;返回的信號變得雜亂無章,整體數據質量下降;更詭異的是,懸浮在空中的混凝土粉塵雲團會被雷射雷達"看見"並記錄為實體障礙物,但攝影機和人眼幾乎看不到它——就好像雷射雷達在空氣中"幻視"出了一堵並不存在的牆。研究團隊還測試了一款固態雷射雷達,結果發現它在粉塵環境中完全失靈,一個距離數據都測不出來,研究團隊推測這可能與該設備使用的1550納米波長雷射及其內部信號處理方式有關。
正因如此,開發噴射混凝土機器人的感知系統,比開發普通室外自動駕駛或倉庫機器人的感知系統要難得多。而在這份數據集發布之前,整個領域連一份公開的相關數據都沒有。
二、數據集是怎麼採集的,以及這套"眼睛"長什麼樣
研究團隊把兩種傳感器裝進了一個特別定製的防塵外殼裡——這個外殼是用3D列印技術製造的,專門為防止混凝土顆粒侵入傳感器而設計。
立體攝影機是Roboception rc visard 160c彩色版本,配備4毫米焦距鏡頭。它能同時拍攝左右兩張高解析度彩色圖片,解析度為1280×960像素。同時,攝影機內部集成了一塊英偉達
Tegra K1計算晶片,能直接在相機本體上運行"半全局匹配"算法(一種經典的立體視覺算法),實時計算出解析度為640×480的視差圖(視差圖可以理解為一張"距離熱力圖",顏色深淺代表不同距離)和置信度圖(表示每個距離測量值的可靠程度)。攝影機的水平視角為61度,垂直視角為48度。
雷射雷達是Velodyne PUCK型號,俗稱"曲棍球",因為它的外形確實很像一個扁圓形曲棍球。它有16條掃描線,垂直視角30度,測距範圍最遠100米,精度通常在正負3厘米以內,工作波長為903納米。它被安裝在攝影機正上方,同樣固定在防塵外殼內。雷射雷達投影到圖像平面後的深度圖解析度同樣為1280×960。
兩個傳感器的採集頻率不同:彩色圖片每秒25幀,立體視差圖每秒3幀,雷射雷達點雲每秒10幀。為了讓不同頻率的數據能夠配對使用,團隊採用了精確的時間同步方案——雷射雷達通過GPS模組接收PPS脈衝信號和NMEA消息來精確打時間戳,攝影機則通過PTP網路時間同步協議與同樣連接GPS的採集電腦同步。最終,每一幀彩色圖片和視差圖都與時間上最接近的那一幀雷射雷達點雲配對,組成一個完整的數據樣本。
三、這份數據集裡有什麼
整份ShotcreteDepth數據集共包含11,252個完整的時間同步數據樣本,記錄了噴射混凝土施工前、施工中、施工後以及一般建築工地的各種場景。為了能夠用這份數據評估算法性能,研究團隊從中挑選了220個樣本進行人工標註。挑選時特意跳過相鄰的高度相似幀,確保這220個樣本儘可能涵蓋多樣化的場景,而不是集中在某一類似情況。
每個完整數據樣本包含:左攝影機彩色圖、右攝影機彩色圖、視差圖、置信度圖,以及對應的雷射雷達點雲投影深度圖。從論文的示例圖中可以看到,視差圖用暖色(紅橙黃)表示近處、冷色(藍色)表示遠處;置信度圖則展示了哪些區域的視差測量值是可靠的(顏色鮮艷區域),哪些是不可靠的(黑色區域,大多出現在無紋理表面或粉塵遮擋處);雷射雷達投影圖則呈現為稀疏的橫條紋圖案,因為16條掃描線投影后在垂直方向上解析度極低。
四、專門為處理雷射雷達"幻視"而開發的標註工具
前面提到,雷射雷達會把空氣中的粉塵雲"看見"並當成實體記錄下來。如果直接用這些被污染的雷射雷達數據作為算法評估的"標準答案",等於讓算法去學習一個錯誤的參照物。這就像考試時發現標準答案本身有錯誤,再認真的學生也會被帶偏。
為此,研究團隊專門開發了一個輕量級的點雲標註工具,並作為開源代碼隨數據集一起發布。這個工具的界面分為上下兩個視圖:上方是雷射雷達點雲的三維立體視圖,可以自由旋轉查看;下方是把點雲投影疊加到左攝影機彩色圖上的二維視圖,幫助標註人員對照真實場景判斷哪些點是空氣中的粉塵,哪些是真實的牆壁或物體表面。操作者可以通過鍵盤快捷鍵在"旋轉模式"和"標註模式"之間切換,並將點標記為"由用戶保留"或"由用戶移除"。工具還支持"由算法保留"和"由算法移除"兩種標籤,用於記錄程序自動處理的結果。
除了手動標註粉塵點,數據集還對雷射雷達常見的另一種噪聲——遮擋點——進行了自動過濾。遮擋點是指當多個傳感器從不同角度觀測同一場景時,某些在雷射雷達視角下可見但在攝影機視角下被遮擋的點。處理方法是使用一個滑動窗口在投影到圖像平面的深度點上移動,窗口大小設為10×50像素,把窗口內距離超過最近點0.5米以上的點標記為"由算法移除"。值得注意的是,被用戶手動標記為移除的粉塵點會在這一步被跳過,避免誤刪粉塵點周圍的真實表面點。
五、用九種算法來"考一考"這份數據集
數據集發布的同時,研究團隊還用它測試了九種當前最先進的深度感知算法,分屬三大類:立體匹配、深度補全和深度估計。這就像為一份新出的考卷同時邀請多位學生作答,既檢驗了這份考卷的區分度,也為後來者提供了基準成績。
所有算法的推理均在640×480解析度下運行,結果上採樣後在1280×960解析度下計算評估指標。雷射雷達點雲經過標註和過濾後作為評估的"標準答案"。
**立體匹配**這一類算法的任務是根據左右兩張圖片計算每個像素對應的距離。評估指標包括:端點誤差(EPE,單位像素,數值越小越好)、D1(誤差超過3像素且超過真實值5%的點的比例,越小越好)、平均絕對誤差(MAE,單位米)、均方根誤差(RMSE,單位米),以及算法能覆蓋多少比例的圖像區域(Coverage)。
研究團隊測試了四種方案。相機內置的半全局匹配算法直接運行在相機的嵌入式晶片上,算法經過了高度優化,每秒能處理約3幀,但它只能覆蓋61%的圖像區域——也就是說將近四成的像素它算不出距離來,在粉塵遮擋或光照不均勻的區域尤其糟糕。它的EPE為2.276像素,D1為0.106,但MAE高達1.467米、RMSE高達2.207米,說明雖然整體像素級誤差不大,但一旦出錯就錯得很離譜。
RAFT-Stereo是一種基於循環疊代優化的神經網路方法,參數量約1100萬,單幀推理時間約0.141秒。它能覆蓋100%的圖像區域,EPE為2.449像素,D1為0.130,MAE為0.337米,RMSE為0.729米。FoundationStereo是一個基於大型Vision Transformer骨幹網路的重量級模型,參數量達3.75億,推理時間約0.156秒,EPE為2.439,D1為0.129,MAE為0.327米,RMSE為0.741米。StereoAnywhere同樣是大型模型,參數量3.47億,推理時間約0.307秒,它在EPE(2.328)和D1(0.103)兩項核心立體匹配指標上表現最好,MAE為0.311米,RMSE為0.795米。
從這組數字可以讀出一個有趣的現象:相機內置算法在像素級別的視差精度(EPE、D1)上並不輸給神經網路,甚至略有優勢,但它的深度誤差(MAE、RMSE,單位米)極大,原因在於它有大量區域完全無法計算,這些區域被排除在EPE和D1統計之外,但MAE和RMSE是按實際覆蓋點計算的,當錯的地方錯得很嚴重時,整體誤差自然飆升。神經網路方法雖然在逐像素精度上略遜,但能做到全圖覆蓋,且整體深度誤差更小,在這種粉塵瀰漫、遮擋嚴重的環境下更可靠。定性上,神經網路也能在極暗或過曝的區域生成更清晰的物體輪廓。
**深度補全**這一類算法的任務是:給你一張彩色圖,再給你從立體匹配算出的500個稀疏的已知距離點,讓你把整張圖的距離都填充完整。可以理解為,擁有一張城市地圖(彩色圖)和500個已知海拔的採樣點(稀疏深度),要你畫出完整的地形等高線圖。稀疏的500個深度點來自StereoAnywhere的輸出,選它的原因是它的EPE和D1最低、輸出最乾淨。
評估指標包括MAE、RMSE(單位均為米),以及邊界準確度指標:偽深度邊界誤差的準確性(E_PDBE_acc,越小越好)和完整性(E_PDBE_comp,越小越好),邊界真值來自StereoAnywhere的輸出。
Marigold-DC是基於擴散模型(一種類似"從噪聲中逐步還原圖像"的生成式方法)的深度補全算法,參數量約9.5億。單次運行MAE為0.364米、RMSE為0.893米,但將10次獨立運行的結果取平均(集成)後,MAE降至0.325米、RMSE降至0.793米,邊界準確性也明顯提升,代價是推理時間從約24.5秒膨脹到約254秒,實際使用中幾乎不可能接受這個速度。Marigold-SSD是同一擴散模型框架下經過專門加速優化的版本,通過將擴散步驟壓縮為單步來實現快速推理,僅需約0.382秒,MAE為0.422米,RMSE為0.868米,邊界完整性指標(E_PDBE_comp=21.107)明顯弱於其他方法,說明它對邊界細節的恢復能力相對有限。VPP4DC是一種完全不同的思路,它通過在圖像上疊加虛擬的結構光投影圖案、然後重新訓練立體匹配網路來實現深度補全,參數量僅約1100萬,推理時間僅約0.116秒,MAE為0.360米,RMSE為0.790米,在MAE和RMSE兩項主指標上表現與Marigold-DC集成版相當,但速度快了兩千倍以上。
**深度估計**這一類算法的任務更為純粹:只給一張彩色圖,什麼其他資訊都沒有,直接估計每個像素的距離。由於沒有任何絕對距離參照,許多此類算法預測的是"相對深度"或"仿射不變深度"(只保證近的比遠的小,但具體數值不准),因此需要藉助那500個稀疏立體匹配深度點來進行尺度和偏移的對齊校準,校準公式通過最小化最小二乘誤差得出一個全局縮放係數和偏移量。
評估指標使用絕對相對誤差(REL,越小越好)和δ1(預測值與真實值之比介於0.8到1.25之間的點的比例,越大越好),此外也報告了MAE和RMSE。
Depth Anything v3使用了參數量約13.56億的GIANT-1.1檢查點,推理時間約0.095秒,REL為0.133,δ1為0.834,MAE為0.554米,RMSE為0.852米,在三者中綜合表現最優。Marigold-E2E同樣基於擴散模型,參數量約9.5億,推理時間約0.175秒,REL為0.174,δ1為0.727,MAE為0.715米,RMSE為1.016米,各項指標均弱於另外兩者。MoGe-2使用ViT-Large檢查點,參數量約3.26億,推理時間僅約0.057秒,這是三者中最快的,它直接預測帶有度量尺度的絕對深度,經過尺度和偏移校準後REL為0.142、δ1為0.816,不做任何校準時REL飆升到0.210、δ1跌至0.594,說明其預測的絕對尺度與真實場景存在偏差,但在對齊之後表現頗具競爭力。
六、從這些測試結果中讀出的規律
把九種算法在這份數據集上的表現放在一起看,能讀出幾條清晰的規律。
計算效率與精度之間存在明顯的權衡關係。輕量級的算法(如相機內置SGM、VPP4DC、MoGe-2)能以接近實時的速度運行,但在粉塵遮擋嚴重、光照極端的場景下精度受限;大型深度學習模型(FoundationStereo、StereoAnywhere、Marigold-DC集成版)的精度更高、魯棒性更強,但推理時間長,有些甚至需要數分鐘才能處理一幀,在實際機器人應用中難以接受。
立體攝影機和雷射雷達各有擅長。立體攝影機在密度和解析度上有優勢,但在粉塵極重時精度下降明顯;雷射雷達雖然會被粉塵干擾,但在能見度相對正常時依然能提供穩定的絕對距離參考,只是數據極度稀疏。研究團隊在討論中明確指出,將兩者融合(傳感器融合)有望實現遠超單一傳感器的深度感知效果,但要做到這一點,還需要額外的評估數據來量化融合後的提升,這也是未來工作的方向之一。
從神經網路方法與傳統算法的對比來看,深度學習模型在處理極暗區域(如圖像左側嚴重曝光不足的區域)和過曝區域時,依然能生成物理上合理的深度圖,且物體邊緣更清晰,而傳統SGM在這些區域幾乎完全失效(大片黑洞)。這表明,神經網路從大量訓練數據中學到的"世界知識"確實幫助它在局部資訊嚴重缺失時做出合理推斷。
歸根結底,這份數據集證明了一件重要的事:在噴射混凝土這種極端環境下,深度感知並非不可能,而是完全可行的——現有的算法已經能做到有意義的測量,只是精度和速度之間還需要進一步取得平衡。這也意味著,讓機器人完全自主地完成噴射混凝土作業,在感知層面已經看到了現實路徑。
對於那些熱衷於自動化施工、礦山機器人、隧道檢測或者任何需要在惡劣光學條件下工作的視覺系統的研究者和工程師來說,ShotcreteDepth數據集和配套的標註工具提供了一個此前從未有過的起點。完整的數據集、標註工具和實驗代碼均已開源,有興趣的讀者可以在GitHub搜索"dtu-pas/shotcrete-depth"找到項目倉庫,或通過arXiv編號2606.23152查閱原始論文。
---
Q&A
Q1:ShotcreteDepth數據集和普通深度感知數據集有什麼不同?
A:ShotcreteDepth專門針對噴射混凝土施工環境採集,包含大量粉塵瀰漫、照明惡劣的真實場景,雷射雷達數據還帶有粉塵雲干擾點的人工標註。普通深度數據集(如自動駕駛的KITTI)基本在正常室外光照條件下採集,不包含這類極端工業環境,無法直接用於評估機器人在粉塵環境中的感知能力。
Q2:雷射雷達在噴射混凝土環境中為什麼會出現"幻視"問題?
A:噴射混凝土產生大量懸浮微粒,雷射束打到這些顆粒上會被反射回來,雷射雷達會將這些空中顆粒誤識別為實體表面並記錄為距離數據,形成實際上並不存在的"障礙物"。攝影機和人眼對這些顆粒基本透明,所以兩者看到的場景存在根本性差異,這正是該數據集需要專門標註工具剔除粉塵點的原因。
Q3:ShotcreteDepth數據集支持哪些類型的算法研究?
A:該數據集支持三類深度感知算法的開發與評估:立體匹配(利用左右兩張圖像計算距離)、深度補全(結合稀疏雷射雷達點和圖像填充完整深度圖)以及單目深度估計(僅憑單張圖像推斷距離)。數據集還可用於研究粉塵對傳感器的影響規律,以及多模態傳感器融合方法。






