當自動駕駛汽車遭遇「意外訪客」：帕多瓦大學的AI如何讓雷射雷達認出從未見過的障礙物

這項由義大利帕多瓦大學研究團隊完成的研究，發表於2026年IEEE/CVF電腦視覺與模式識別頂級會議（CVPR 2026），論文編號為arXiv:2604.23604，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

假設你正坐在一輛無人駕駛汽車裡，窗外的道路上突然出現了一把從卡車上掉落的辦公椅。汽車的"大腦"每天都被訓練成認識行人、路燈、其他車輛，但從來沒見過落在馬路中間的椅子。此時，它會做什麼？是把椅子當成路面的一部分直接碾過去，還是能意識到"這是個不認識的東西，要停下來"？

這個問題，正是帕多瓦大學研究團隊花費大量心血攻克的核心難題。他們提出了一套全新的系統，名為LIDO（Learning to Identify Out-of-Distribution Objects，學習識別分布外物體的縮寫），專門讓雷射雷達（LiDAR，一種用雷射束掃描周圍環境、生成三維點雲地圖的傳感器）能夠識別出那些它從未在訓練中見過的"陌生訪客"。

要理解這個研究的意義，可以先把雷射雷達想像成一位經驗豐富的保安。這位保安每天站在公司門口，認識所有的員工、快遞員和常見訪客，能快速識別出"這是誰"。但如果哪天來了一個他從未見過的人，他能不能意識到"這個人我不認識，我要特別留意"，而不是直接放行，也不是把所有人都當作陌生人？這正是"異常分割"（Anomaly Segmentation）任務的本質——既要準確識別認識的東西，又要對不認識的東西發出警報。

研究團隊不僅設計了新的識別方法，還因為現有的測試數據集太過簡單、解析度差異太大而自行構建了三套混合真實與合成場景的新數據集。這兩方面的貢獻共同構成了這項工作的核心價值。

一、雷射雷達眼中的世界長什麼樣

在深入了解LIDO系統之前，有必要先理解雷射雷達是如何"看"世界的。雷射雷達不像普通相機那樣拍攝二維彩色圖像，而是向四周密集地發射雷射束，這些雷射束碰到物體後會反彈回來，傳感器通過計算飛行時間來測量距離。最終，所有這些返回信號會組合成一個由數萬乃至數十萬個"點"構成的三維空間地圖，每個點都攜帶著它在空間中的位置坐標（x、y、z）以及雷射反射強度資訊。這張地圖被稱為"點雲"。

贊助商廣告

點雲的好處是能在黑夜、雨霧等各種光照條件下穩定工作，但它的挑戰也很明顯：每個點只有位置和反射強度，沒有顏色，遠處的物體點雲稀疏而模糊，近處的物體則點雲密集。不同型號的雷射雷達，發射雷射束的數量也不同——常見的有16束、32束、64束甚至128束，束數越多，掃描出的點雲越精細，代價自然也越高。

在這個由點構成的三維世界裡，"語義分割"任務的目標是給每一個點打上標籤：這個點屬於地面、這個點屬於建築物、這個點屬於行人……而"異常分割"任務則在此基礎上再追加一個問題：這個點，是否屬於我根本不認識的某個物體？

二、現有方法為何力不從心

在這項研究之前，研究者們已經在二維圖像領域積累了豐富的異常檢測經驗。有人把模型的輸出概率當作信心指標，信心低的區域就視為異常；有人訓練多個模型，用各模型之間的"意見分歧"來標記異常區域；還有人用生成模型重建輸入圖像，看哪些區域重建效果差就認為那裡有異常。這些方法在圖像上有一定效果，但把它們直接搬到雷射雷達點雲上，往往表現欠佳。

三維點雲數據有它獨特的複雜性。點的分布不均勻，遠處的稀疏、近處的密集；沒有顏色資訊，僅憑幾何形狀和反射強度來區分物體；更重要的是，訓練時用的雷射雷達和測試時用的可能型號不同，解析度不同，掃描出來的點雲"質感"也不同，這會造成顯著的"域差距"（Domain Gap）——好比同一個演員在不同導演鏡頭下看起來判若兩人，模型在陌生解析度的數據上往往會大幅退化。

更棘手的是，現有唯一公開的三維雷射雷達異常分割數據集（STU數據集）使用的是128束的高解析度雷射雷達，而大多數訓練數據來自64束傳感器，這個解析度跨越本身就是巨大的挑戰。該數據集僅有二值標籤（是不是異常），沒有詳細的語義標籤，場景也相對簡單，異常實例的數量不多。

贊助商廣告

用一個集成了多個模型的"委員會投票"方案確實能提升效果，但代價是計算量急劇膨脹——要同時運行三個獨立的大模型，速度自然快不起來，內存占用也大得驚人。對於需要實時響應的自動駕駛系統來說，這是難以接受的代價。

三、LIDO的核心思路：在"特徵空間"里認出陌生人

研究團隊選擇了一條不同的路徑。與其在模型輸出的概率層面做文章，不如直接深入到模型內部的"特徵空間"里工作。

所謂"特徵空間"，可以用一個比喻來理解。每個物體經過神經網路處理後，都會被壓縮成一個高維的數字向量，就像給每個物體分配了一個獨特的"氣味"。同類物體的氣味彼此相似，不同類物體的氣味截然不同。LIDO的核心想法是：為每一類認識的物體訓練出一個標準的"氣味樣本"（稱為類原型，Class Prototype），然後在面對新點雲時，聞一聞每個點的氣味——如果這股氣味跟任何一個已知類型都不像，那這個點很可能就屬於從未見過的陌生物體。

LIDO由一個特徵提取骨幹網路和兩個並行的處理分支組成。骨幹網路採用的是MinkowskiNet，這是一種專門為三維稀疏點雲設計的高效卷積網路，能夠把原始點雲轉換成富含語義資訊的特徵表示。兩個分支分別被稱為"語義頭"和"對比頭"，它們各司其職，最終在推理階段合力給出每個點的異常分數。

四、語義頭：建立"氣味檔案"並保持整潔

語義頭承擔兩項任務：一是做常規的語義分割，給每個點打上已知類別的標籤；二是為每個已知類別建立並維護一個高質量的"氣味檔案"，也就是類原型。

傳統方法通常直接對每個類別的所有點取平均特徵作為原型，但這樣做有個問題：那些被模型弄錯了的點（比如路面上的點被誤認成建築物）也會混進來，污染原型的純粹性。LIDO引入了一種"置信度加權"機制來解決這個問題。對於每個點，模型會給出一組預測概率，置信度就取這組概率中的最大值。預測越確定，這個點的置信度越高，它對原型的貢獻權重也越大；反之，預測模糊的點貢獻就小。這樣建立起來的原型，就像從檔案館裡精心挑選出的標準樣本，而非隨機堆砌。

贊助商廣告

此外，語義頭還引入了一個"原型接近損失"（Prototype Loss）。在每個訓練輪次開始時，模型會用上一輪積累的類原型作為引導，強迫本輪訓練中屬於某一類的點在特徵空間裡儘可能靠近該類的原型。這就好比要求所有"狗"的氣味都必須聚攏在"狗類氣味標準"的附近，不允許散得太開。隨著訓練的推進，同類點的氣味越來越一致，不同類點的氣味越來越有區分度。

語義頭的訓練目標由三部分加權組合而成：常規的交叉熵損失（衡量分類準確性）、Lovász損失（專門針對分割任務優化的損失函數）以及上述原型接近損失。

五、對比頭：把陌生物體推到"氣味分布"的外圍

對比頭的使命更加聚焦：在特徵空間裡把已知類別的點緊緊團結在一起，同時為檢測未知物體做好準備。

它使用了兩種互補的訓練信號。第一種是對比損失（Contrastive Loss）。對於每個類別，對比頭會計算該類所有點特徵的平均值，然後用這個平均值與類原型進行比對：平均值要儘量靠近本類原型，同時儘量遠離其他類的原型。這個拉近-推遠的雙重壓力，會讓不同類別的特徵分布在高維空間裡分散開來，形成彼此清晰隔離的"氣味星團"。

第二種是"目標球損失"（Objectosphere Loss），這個名字來源於一個幾何意象。可以把高維特徵空間想像成一個多維空間，原點就在中間。已知類別的點，它們的特徵向量應該離原點足夠遠，也就是特徵向量的"長度"（範數）要超過某個閾值r。而對於訓練數據中出現的未知或無標註區域的點，則應該儘量靠近原點，特徵向量範數趨近於零。

關鍵的區別在於，原始圖像領域的工作通常利用訓練數據中的無標註區域來學習"異常特徵"，而LIDO在訓練中完全不使用任何真實的異常樣本或無標註區域。它的做法是：把已知類別的點推到離原點足夠遠的地方，這樣那些"沒見過的"物體的點就自然落在離原點較近的區域，成為可識別的異常信號。這是一個優雅的轉換——無需見過異常，只需把正常的邊界劃清楚。

贊助商廣告

六、推理時如何算出異常分數

訓練完成後，面對一片新的點雲，LIDO會為每個點計算一個介於0到1之間的異常分數，分數越高代表越可能是異常點。這個分數由語義頭和對比頭各貢獻一半，最終取平均。

語義頭給出的分數本身又由兩部分相乘得到。一部分是餘弦距離分數：將當前點的特徵向量與所有已知類別的原型逐一計算餘弦相似度（類似于衡量兩個"氣味"的相似程度），取最大值，再用1減去它——如果這個點跟所有已知類別都不像，相似度最大值就很低，異常分數就高。另一部分是熵分數：把特徵向量通過softmax轉化為各類別的概率分布後，計算該分布的香農熵（資訊熵）。當模型非常確定某個點屬於某個已知類別時，熵值很低；當模型對所有類別都拿不準時，熵值很高，說明這個點很可能不屬於任何已知類別。兩者相乘，再做歸一化處理，得到語義頭的異常分數。

對比頭給出的分數則直接基於特徵向量的範數：如果某個點的特徵向量範數遠低於閾值r，說明這個點落在了高維空間的"原點附近"，很可能是未知物體，異常分數就高；如果範數超過r，異常分數歸零。

七、從零構建三個全新的測試戰場

現有數據集的局限性是整個研究領域的短板。於是研究團隊自己動手，基於三個廣泛使用的自動駕駛語義分割基準數據集，分別構建了三套"混合真實-合成"異常分割數據集。

nuScenes-OoD基於nuScenes數據集的官方驗證集構建，使用32束雷射雷達採集，包含6019個掃描幀，共插入了2398個（單目標分割）到7268個（多目標分割）異常物體實例。SemanticPOSS-OoD則來自SemanticPOSS數據集的驗證序列，使用40束雷射雷達，包含500個掃描幀，共有196到586個異常實例。SemanticKITTI-OoD基於大名鼎鼎的SemanticKITTI數據集的驗證集，使用64束雷射雷達，包含4071個掃描幀，共有1634到4894個異常實例。

這些數據集都同時提供了單目標（Single Split）和多目標（Multi Split）兩種版本。單目標版本中，每個含有異常的場景只插入一個異常物體，且僅放置在道路上，約40%的掃描幀含有異常；多目標版本則可能在一幀中插入最多4個異常物體（以40%、30%、20%、10%的遞減概率分配數量），放置位置也擴展到停車區、人行道等其他平面區域，約60%的掃描幀含有異常，難度更大。

贊助商廣告

最值得關注的是，這三套數據集提供了詳細的語義標籤，而非STU數據集那樣簡單的二值標籤，這使得評估時能同時衡量異常分割性能和語義分割性能。

八、把"假物體"插進真實掃描的藝術

簡單地把一個三維模型的點雲直接疊加到真實雷射雷達掃描中是行不通的。真實雷射雷達掃描中，每個物體表面的點是按照雷射束的角度規律排列的，點的分布有明顯的"行狀"紋理；而三維模型表面均勻採樣得到的點則雜亂分布，一眼就能看出是拼貼上去的。

為此，研究團隊設計了一套精細的插入流程。合成物體的三維模型來自ModelNet數據集，研究團隊仔細篩選了29類物體，排除了汽車、行人等已存在於訓練數據中的類別，也排除了飛機、吉他等與駕駛場景完全無關的物體。最終選入的包括浴缸、床、書架、瓶子、碗、椅子、杯子、桌子、沙發、帳篷、馬桶等，其中書架、衣櫃、抽油煙機這類通常不出現在路面的物體被保留下來，通過縮放模擬成路面碎片或障礙物。

插入流程的核心步驟是球形投影。研究團隊先對物體表面進行密集的均勻點採樣，再將整個場景（原始掃描加上插入的物體點雲）一起投影到一個代表雷射雷達掃描視角的二維"距離圖像"上。這個投影過程會自動處理遮擋問題——被物體擋住的背景點會被移除，物體本身的點則按照雷射束的行列規律重新排布，變成真正符合雷射雷達掃描特徵的"行狀"分布。再從距離圖像還原回三維點雲，得到的便是幾何上完全自洽的混合場景。

強度值的處理同樣考究。ModelNet模型沒有反射強度資訊，研究團隊採用朗伯反射模型來計算每個點的模擬強度值。計算公式考慮了物體表面法向量與雷射束方向的夾角（正對雷射束的表面反射更強）、傳感器到點的距離（距離越遠反射越弱）以及物體材質的固有反射率。研究團隊為每類物體指定了符合現實的材質和反射率：光滑陶瓷（浴缸、碗、馬桶）反射率0.60，玻璃反射率0.20，木材反射率0.40，布料（帳篷、沙發）反射率0.30……這些數值參考了現實測量數據和渲染引擎的材質參數庫。

贊助商廣告

最後，計算出的強度值還會根據目標掃描幀的平均強度進行歸一化，併疊加小量高斯噪聲，使插入物體的亮度與整體場景保持一致，進一步消除人工痕跡。

九、在真實世界數據集上的硬碰硬較量

研究團隊在STU數據集（使用128束高解析度雷射雷達，包含19個驗證序列和51個測試序列，含1965個異常實例）上與多種基線方法進行了正面比較。所有基線方法都建立在Mask4Former3D這個強力的三維分割框架之上，分別疊加了MC Dropout（蒙特卡洛隨機失活，通過多次隨機丟棄神經元來估計不確定性）、RbA（一種基於掩碼預測的異常檢測方法）、Max Logit（取最大原始輸出值作為異常分數）、Void Classifier（增加一個"未知類"進行訓練）和Deep Ensemble（三個模型集成）這五種策略。

在驗證集上，LIDO的AUROC（衡量整體區分能力的曲線面積，越高越好）達到95.05%，超越集成方法的90.93%；FPR@95（在95%真正例率時的假正例率，越低越好）為34.86%，與集成方法的37.34%相當；AP（平均精度，綜合衡量精確率和召回率，越高越好）達到27.53%，相比集成方法的6.94%提升了將近4倍。在測試集上，LIDO同樣以93.67% AUROC、34.29% FPR@95和14.99% AP領先所有方法。

這裡值得特別指出的是AP指標的巨大差距。AP對於類別嚴重不平衡的場景（正常點遠多於異常點）特別敏感，它要求模型不僅要把異常點排在前面，還要精確地只把異常點排在前面。LIDO在AP上的顯著領先，說明它能夠精準地定位到那些異常點，而不是通過把大量正常點也標記為異常來矇混過關。

值得一提的是，LIDO在訓練時完全使用的是64束解析度的SemanticKITTI數據，而STU使用的是128束解析度，這個解析度跨越構成了顯著的域差距。LIDO能在跨域場景下保持如此高的性能，顯示出特徵空間建模方法對域差距的良好魯棒性。

在LIDO訓練時使用的閾值參數r的選取上，研究團隊做了敏感性實驗。與圖像領域的經驗不同，雷射雷達點雲特徵的範數普遍偏大，因此最優閾值r=5.0，遠高於圖像領域通常使用的較小值。這說明不同感知模態的特徵分布特性存在本質差異，方法遷移時需要重新校準。

贊助商廣告

十、在新構建數據集上的表現與深入分析

在SemanticPOSS-OoD數據集上，LIDO在單目標和多目標分割上均顯著超過所有競爭方法。然而，這個數據集整體性能都偏低，研究團隊分析認為原因是SemanticPOSS中存在大量稀疏的動態實例（如遠處的行人），這些稀疏點雲在形態上與部分異常物體相似，容易引發混淆。同時，40束的相對較低解析度也限制了模型能夠提取的特徵數量，對原型建立質量有影響。

在SemanticKITTI-OoD上，LIDO在單目標分割上以93.36% AUROC和10.60% AP領先；在多目標分割上，Deep Ensemble方法以92.19% AUROC略勝，但其FPR高達28.64%，而LIDO的FPR為39.04%。值得注意的是，Deep Ensemble在多目標分割上雖然AUROC和FPR較好，但AP僅12.04%，低於LIDO的9.42%則是反過來，說明集成方法傾向於把更多點預測為異常（從而降低FPR），但這種"廣撒網"的策略也帶來了更多誤報，在AP指標上未能展現出更好的精準性。

在nuScenes-OoD上，32束的低解析度是最大挑戰。LIDO達到了89.33%（單目標）和87.25%（多目標）的AUROC，與MinkowskiNet骨幹網路的集成方法相當，但在AP指標上略低於基於Mask4Former3D的集成方法（6.79% vs 18.34%）。研究團隊指出，nuScenes的低點密度嚴重影響了類原型的構建質量，反映在語義分割性能也下降明顯（mIoU從72.75%降至60.61%）。摩托車和自行車類別由於數據量極少（分別只有全部數據的0.03%和0.01%），其特徵學習幾乎失效，頻繁被錯分為更常見的"人工建築"類別。

對於整體AP偏低的問題，研究團隊給出了幾層解釋。雷射雷達數據本身存在嚴重的類別不平衡，正常點壓倒性地多於異常點；模型對某些類別邊界區域（如道路與人行道交界處）天然存在不確定性，這種不確定性會產生假陽性；遠處的稀疏點同樣是誤報的高發區。有趣的是，多目標分割版本的AP普遍高於單目標版本，研究團隊認為這是因為多目標場景中異常點的絕對數量更多，在統計上有利於AP的計算。

贊助商廣告

十一、計算效率的驚人差距

除了性能指標，研究團隊還專門測試了各方法的運行時間和資源消耗（在NVIDIA A40 GPU上進行）。LIDO擁有2170萬個參數，推理時間僅38毫秒（nuScenes-OoD），在STU的128束高解析度數據上也只需90毫秒，內存占用0.6GB，完全滿足實時處理需求。

相比之下，Mask4Former3D單模型就有3960萬參數，推理需要168毫秒（nuScenes-OoD），在STU上則需392毫秒。順序運行的Deep Ensemble（三個模型依次運行）在nuScenes-OoD上需要861毫秒，在STU上更是長達2628毫秒——超過2.5秒，對於需要實時決策的自動駕駛系統來說完全不可接受。即使是並行運行三個模型的版本，nuScenes-OoD上也需要287毫秒，內存消耗高達5.7GB，是LIDO的近10倍。

這種效率上的巨大差距，在實際部署中意味著本質性的不同。LIDO可以直接裝進車載嵌入式計算平台，而集成方法則需要高端工作站級別的硬體支撐。

十二、消融實驗：拆開看每個零件的作用

為了驗證每個設計選擇的必要性，研究團隊系統地進行了消融實驗，在STU驗證集上逐步添加各個組件，觀察性能變化。

從只有基礎語義分割加最大輸出值（Max Logit）推理開始，AUROC已有90.92%，但AP僅0.97%。加入原型損失後，無論是使用閾值推理還是餘弦距離推理，AP都有小幅提升，說明更緊湊的類原型確實改善了特徵分布的質量。當同時加入對比損失後，配合語義頭分數（餘弦距離乘以熵）推理，AUROC升至95.04%，AP躍升至12.88%。進一步加入目標球損失，並將語義頭分數與對比頭分數各取一半融合（即完整的LIDO），AUROC保持在95.05%，AP達到最高的27.53%。

有個細節很有意思：單獨使用對比頭分數（僅基於特徵範數）推理時，FPR高達100%，說明單靠範數閾值來判斷異常是不可靠的，必須與語義頭的餘弦距離和熵分數結合才能發揮作用。兩個頭的分數互為補充，共同覆蓋對方的盲區。

這個逐步驗證的過程，就像是拆解一台精密儀器，確認每個零件都有其不可或缺的功能，缺少任何一個都會讓整體性能打折扣。

贊助商廣告

十三、語義分割性能的小代價

引入異常分割的額外訓練目標，不可避免地對基礎語義分割性能產生了一定影響。與純語義分割基線相比，LIDO在SemanticKITTI-OoD上的mIoU從64.99%降至61.34%，在SemanticPOSS-OoD上從57.07%降至55.63%，在STU上從36.75%降至35.14%，在nuScenes-OoD上降幅最大，從72.75%降至60.61%。

研究團隊進一步分析了這個降幅的構成：原型損失是造成mIoU下降的主要原因（單獨加入原型損失使mIoU從64.8%降至60.7%），而後續加入的對比損失和目標球損失反而略微彌補了一些（mIoU回升至61.0%和61.2%），這與消融實驗中觀察到的趨勢一致。在逐類分析中，摩托車手（Motorcyclist）類別在加入LIDO損失後從0.1%mIoU降至0.0%，這類極罕見的類別受到的衝擊最大。

歸根結底，這是一個在語義分割精度與異常檢測能力之間做權衡的設計選擇。LIDO選擇了適度犧牲語義分割精度（約3-12個百分點，視數據集而定），換取大幅提升的異常檢測能力，這在實際自動駕駛場景中是一個合理的取捨——漏識別一個障礙物的後果遠比多幾個誤分類的路面點要嚴重得多。

說到底，LIDO這項研究的價值在於為自動駕駛和機器人感知領域的一個長期痛點提供了一個兼具性能和效率的解決思路。它證明了直接在特徵空間內建立"已知類別的氣味邊界"，比在模型輸出端做各種後處理更加根本和有效。帕多瓦大學的研究團隊同時還指出了未來的改進方向：將LIDO拓展到跨域場景（即用在與訓練數據分布差異更大的環境中），以及進一步研究如何量化模型的不確定性，從而在長距離和稀疏點雲條件下做出更可靠的異常判斷。

這些方向的突破，或許意味著無人駕駛汽車真正做到"遇事不慌"還需要更多研究努力，但LIDO無疑是向這個目標邁出的紮實一步。感興趣的讀者可以通過arXiv編號2604.23604查閱完整論文，或訪問研究團隊的項目主頁獲取代碼和數據集。

贊助商廣告

Q&A

Q1：LIDO方法和直接訓練多個模型集成的方法相比，哪個更適合實際部署？

A：在性能上，LIDO在STU數據集上的平均精度（AP）比三模型集成方法高出將近4倍；在效率上，LIDO的推理時間約38至90毫秒，內存占用僅0.6GB，而集成方法順序運行需要超過800毫秒甚至2.5秒，內存消耗達到5.7GB。對於需要實時響應的自動駕駛系統，LIDO明顯更適合實際部署，集成方法則更適合對速度要求不高的離線分析場景。

Q2：LIDO構建的三個新數據集和現有STU數據集有什麼本質區別？

A：STU數據集使用128束高解析度雷射雷達，僅提供二值異常標籤，場景相對簡單，異常實例數量有限。三個新數據集（nuScenes-OoD、SemanticPOSS-OoD、SemanticKITTI-OoD）則覆蓋了32束、40束和64束三種不同解析度，同時提供詳細的語義標籤，場景更複雜，異常物體多達29類，且有單目標和多目標兩種難度版本。更重要的是，新數據集通過幾何對齊和物理反射模型計算強度值，確保合成物體與真實掃描的一致性，異常實例總數也遠超STU。

Q3：雷射雷達異常分割為什麼比普通圖像異常檢測更難解決？

A：雷射雷達點雲面臨幾個圖像領域沒有的獨特挑戰。首先，點雲只有位置坐標和反射強度，沒有顏色資訊，可用特徵維度少得多。其次，點的空間分布極不均勻，近處密集遠處稀疏，遠處的異常物體可能只有寥寥幾個點，識別難度極高。此外，不同型號雷射雷達的束數不同會造成顯著的域差距，訓練數據和測試數據的點雲"質感"差異可能很大，模型泛化難度更高。最後，公開數據集極為匱乏，現有數據集要麼解析度差異大，要麼異常標註簡單，這些都制約了方法的發展。