這項由卡爾斯魯厄理工學院(Karlsruhe Institute of Technology)與FZI資訊技術研究中心聯合主導,並有馬德里卡洛斯三世大學、代爾夫特理工大學共同參與的研究,於2026年6月1日以預印本形式發布在arXiv平台,論文編號為arXiv:2606.02956。研究成果圍繞一個名為"KITScenes Multimodal
"的歐洲自動駕駛數據集展開,感興趣的讀者可通過該編號在arXiv上查閱完整論文。
自動駕駛這件事,說起來大家都熟悉——無人計程車、輔助駕駛系統,這些詞早已不再陌生。但要讓一輛汽車真正在複雜的城市道路上自己開,背後需要的遠不止"認出前面是紅燈還是綠燈"那麼簡單。它需要在幾百米之外就準確判斷道路結構,知道哪條車道可以走、哪塊區域是自行車道、前方路口的紅綠燈管的是哪幾條車道,甚至在雨霧天氣中也能做到這些。為了訓練出能完成這些任務的人工智慧系統,研究人員必須先有一套"教材"——也就是包含真實道路錄像、傳感器數據、精確地圖的數據集。
問題在於,現有的數據集就像一本內容不全的教科書:有的缺少詳細地圖標註,有的只拍了高速公路場景,有的傳感器探測距離不夠遠,有的只覆蓋美國或亞洲的道路環境。歐洲城市街道那種不規則的放射狀布局、行人與自行車和汽車混行的複雜場面,在現有數據集裡幾乎找不到。這就好比你想教一個廚師做川菜,卻只給他一本法式烹飪入門書——原材料根本對不上號。
卡爾斯魯厄理工學院的研究團隊正是察覺到了這個缺口,於是花費大量人力物力,打造了KITScenes Multimodal數據集。這套數據集配備了目前公開數據集中最頂級的傳感器組合,並附帶了研究團隊認為是所有公開數據集中最完整的高精度地圖。更難得的是,這套地圖經過了真實無人駕駛汽車的閉環行駛驗證——也就是說,汽車真的按照這套地圖在現實道路上開過,並且成功了。
---
一、為什麼自動駕駛需要一本"更好的教科書"
要理解這個數據集的價值,先得明白自動駕駛的人工智慧是怎麼"學習"的。簡單來說,研究人員把錄製好的真實駕駛場景餵給算法,算法通過反覆"看"這些場景,逐漸學會識別道路、判斷障礙物、規劃路線。這個過程和人類學開車有點像——先在模擬場景里練,再上真實道路。而數據集,就是這個"模擬場景"的來源。
現有的經典數據集,比如來自波士頓和新加坡的nuScenes、來自美國的Waymo Open數據集、Argoverse 2等,在推動自動駕駛研究上貢獻巨大。但它們各有明顯短板。nuScenes的地圖缺少交通燈和標誌的詳細標註,也沒有把這些元素和對應車道在拓撲結構上連接起來。Waymo的相機解析度有限,且只覆蓋約230度的視野,並非完整的360度環視。來自瑞典的ZOD數據集規模雖大,但每個場景只標註了單幀關鍵幀,且主要是圖像平面內的標註,缺乏三維空間資訊。MAN TruckScenes和TruckDrive都聚焦於高速公路卡車場景,與密集城市駕駛相去甚遠。英偉達雖然發布了規模龐大的PhysicalAI AV數據集,但至今仍缺少完整的公開標註。
除此之外,這些數據集幾乎清一色來自北美和亞洲。歐洲城市那種歷史悠久、街道蜿蜒不規則的環境,在公開數據集裡幾乎是空白地帶。而偏偏這種環境才是對自動駕駛系統最難的考驗——沒有整齊的方格路網,沒有寬闊的單向大道
,有的是密集交叉的小街、各種方向的自行車道、緊湊的交叉路口和錯綜複雜的交通信號。
這正是KITScenes Multimodal想要填補的空白。研究團隊將數據採集地點選在了德國的卡爾斯魯厄、法蘭克福和辛德爾芬根。卡爾斯魯厄是一座18世紀按放射狀規劃建造的城市,法蘭克福擁有密集的金融區核心地帶,辛德爾芬根則是典型的郊區工業混合環境。三個城市,三種截然不同的道路風格,加在一起構成了一個頗具代表性的歐洲城市駕駛場景樣本庫。
---
二、這套傳感器組合,相當於給汽車裝了一套"超級感知系統"
數據集的核心競爭力,首先來自於那輛用於錄製的車輛本身配備的傳感器。這輛車的車頂安裝了一套極其精密的設備組合,可以類比為給一個偵探配備瞭望遠鏡、夜視儀、雷達、測距儀和高精度GPS——每一樣工具都指向同一個目標:在最大範圍內,儘可能精確地感知周圍環境。
先說相機。這輛錄製車配備了9個相機,其中6個解析度為710萬像素的環視相機提供完整的360度視野,一對前向傾斜的立體相機用於精確測量近距離深度,還有一個1620萬像素的超高解析度遠距相機專門用來看清幾百米外的細節。加在一起,每幀畫面的總解析度達到7250萬像素——這個數字是目前同類數據集中排名第二位的將近兩倍。更重要的是,這些相機全部使用"全局快門
"技術。普通手機相機是"捲簾快門",拍攝運動物體時會產生果凍般的變形,而全局快門會在同一瞬間捕捉整幅畫面,確保圖像不會因車輛運動而出現失真。所有相機在硬體層面同步觸發,確保不同相機拍到的是同一時刻的場景。
再說雷射雷達。這輛車配備了7個雷射雷達,分布在車頂四周,提供360度重疊覆蓋。雷射雷達的工作原理類似蝙蝠的回聲定位——向外發射雷射束,測量反射回來的時間來計算距離,從而生成一張三維點雲地圖。這套系統每幀平均產生超過90萬個點,峰值超過120萬個點,是現有數據集的三倍。更關鍵的是,其中4個雷射雷達使用了1550納米波長的雷射,這種波長在大氣中傳播損耗更小,使得有效探測距離超過400米——而目前排名第二的數據集只能達到約220米。這意味著,這套系統可以在高速行駛時就提前"看到"半個街區之外的情況,而不是等到近在咫尺才做出反應。
然後是4D成像雷達
。車上安裝了3個大陸集團ARS548型4D雷達,每個探測範圍達300米,能同時測量目標的位置、速度,以及高度資訊。雷達的特殊價值在於它不受天氣影響——在大雨、濃霧、沙塵等雷射雷達性能大幅下降的場景中,雷達仍然能可靠工作。"4D"這個詞裡,前三維是空間位置,第四維是速度,有了速度資訊,系統就能區分靜止的路牌和正在移動的行人,即使兩者在某一時刻恰好處於同一位置。
最後是定位系統。車上安裝了兩套獨立的GNSS接收機(類似於高精度GPS),其中一套還集成了慣性導航單元(IMU)。通過融合這兩套系統的數據,再結合雷射雷達SLAM(同步定位與建圖),研究團隊實現了厘米級的定位精度。這種精度對於製作高精度地圖至關重要——地圖上每一個交通燈、每一條車道線的三維坐標,必須精確到能夠直接投影回相機圖像,誤差控制在像素級別。
在數據處理方面,研究團隊記錄的是原始的拜耳格式圖像,而非壓縮後的影片,然後離線使用高質量的去馬賽克算法和色差校正進行處理,再用JPEGLI這款視覺無損壓縮格式儲存。這保證了圖像質量達到神經渲染和視角合成等高保真應用的要求。此外,為遵守歐洲隱私法規,所有人臉和車牌都經過DNAT技術處理,這種方法與傳統的模糊處理不同,它通過圖像修復技術保持了照片的視覺真實感,而不是簡單打碼。
---
三、那張地圖,是整個數據集最獨特的靈魂
如果說傳感器是數據集的"眼睛",那麼高精度地圖(HD Map)就是它的"大腦圖譜"。KITScenes Multimodal提供的地圖,是研究團隊最引以為傲的部分,也是目前公開自動駕駛數據集中公認最完整的。
這套地圖以Lanelet2格式
標註,覆蓋面積達62平方公里。Lanelet2是學術界和工業界都認可的開放高精度地圖標準,它不僅記錄道路的幾何形狀,還編碼了道路的拓撲關係(哪條道可以直行、哪條必須右轉)以及所有與駕駛相關的法規元素。KITScenes的地圖在此基礎上做到了極致的完整性:道路級別的多義線(polyline)被分為29個類別,包括路沿、虛線、實線、斑馬線、自行車專用標線等各種細分情況;交通標誌按照德國道路交通法220個類別進行分類,實際觀察到120種;交通燈分為機動車、自行車、行人、其他四類。
更重要的是,每一個交通燈和交通標誌都在三維空間中被精確標註,包括它的位置、尺寸和朝向,精度達到可以直接投影回相機圖像的程度——也就是說,如果你把地圖上某個交通燈的三維坐標投影到對應的相機畫面上,它會精準落在圖像中那個交通燈的像素位置上。這種"重投影精度
"(reprojection accuracy)意味著地圖標註可以直接作為圖像級別的訓練信號使用,無需任何額外的對齊操作。此外,每個交通燈和交通標誌都通過拓撲鏈接明確標註了它所管控的車道——路口那個紅燈,到底管的是哪幾條車道,在地圖裡一清二楚。
這套地圖的製作過程同樣頗為嚴謹。標註工作由內部團隊完成,總計投入約一萬工時,平均每平方公里需要160小時。底圖來自市政測繪部門提供的高解析度航拍圖像,地面採樣解析度最高達6厘米,優於所有公開產品。道路級別內容從航拍圖標註,而交通燈、路標等立體元素則直接從車載傳感器的地理參考數據中標註,確保三維精度。兩套標註層最終融合進統一地圖,再經過自動化的拓撲一致性檢查和路由圖孤立點檢測,最後還有一個內部研發的航拍圖多義線屬性分類器,對每條標註線進行質量審查。
地圖質量的最終檢驗,是真實的閉環駕駛試驗。研究團隊將這套地圖接入Autoware——一個國際認可的開源自動駕駛軟體棧,被日本多個機器人計程車項目用作核心平台——然後讓車輛按照地圖在真實道路上自主行駛。車輛成功完成了這些試驗,這證明這套地圖不只是"看起來很精確",而是真的能指導一輛真車在現實世界中安全行駛。
---
四、四個基準測試,專門用來戳穿現有算法的"底細"
有了高質量的數據和地圖,研究團隊設計了四項基準測試,每一項都專門針對當前最先進方法的已知短板。這四項測試就像四道精心設計的考題,目的不是讓算法"輕鬆通關",而是讓它們暴露出真實的能力邊界。
第一項考題是在線高精度地圖構建。這個任務的目標是:不依賴任何預先儲存的地圖,只靠車載傳感器的實時數據,讓算法"現場"推斷出周圍道路的結構和規則元素。現有的基準測試——比如在Argoverse 2數據集上跑的那些——只要求算法識別出簡單的幾何元素,如車道分隔線、斑馬線、路緣,而且這個領域已經出現了明顯的性能飽和跡象:自2024年MapTracker方法出現之後,排行榜上的數字就基本不再有顯著進步了。KITScenes的版本要難得多——算法不僅要識別這些幾何元素,還要推斷交通燈、路標及其與車道的拓撲連接關係,輸出完整的Lanelet2格式地圖結構。
研究團隊在這個任務上測試了兩個代表性方法:MapTRv2(一個純相機輸入的基準方法)和SDTagNet(一個利用標準定義地圖先驗知識的方法)。兩者在這個更完整的任務設定下都出現了大幅性能下降,證明了現有方法遠未達到真正實用的水平。SDTagNet相對受益更多——有了結構化的先驗知識,它在更複雜的任務上表現相對更好,這暗示著引入結構化先驗可能是未來改進的方向。研究團隊還擴展了MapQR方法,加入了一個圖神經網路(GNN)頭部模組,讓它能預測地圖元素之間的拓撲關係,命名為MapQR-Topo,作為拓撲預測的基線方法。
第二項考題是長距離單目深度估計。簡單來說,這個任務就是讓算法只憑一張普通相機圖像,估計出圖像中每個像素對應的真實距離。現有的方法在100米以內表現相當不錯,但超過這個範圍就開始"力不從心"。研究團隊評測了三個號稱達到數據集無關最優水平的方法:UniDAC、Depth Anything 3和MapAnything。
結果非常有趣,也頗具警示意義。如果只看整體數值,MapAnything排名第一,UniDAC排名最後。但一旦把數據按距離分段來看,畫面就完全不同了:在100米以內,MapAnything確實最好;在100到200米之間,三者都明顯變差;而在超過200米的範圍內,UniDAC反而是三者中最強的,而MapAnything的表現已經接近完全失效——其δ1精度指標降到了接近零的水平,意味著它幾乎沒有能力估計超過200米的深度。這個"排名反轉"現象揭示了一個嚴重問題:現有的綜合評價指標會掩蓋方法在特定距離段的嚴重失效,而在自動駕駛場景下,高速行駛時恰恰最需要遠距離的準確判斷。
第三項考題是新視角合成(Novel View Synthesis)。這是近年來神經渲染領域的熱門方向——給算法一段行車錄像,讓它學會"重建"場景的三維結構,然後能從任意新的視角渲染出這個場景的樣子。這項技術對自動駕駛仿真很重要:如果算法能可靠地生成"如果車向左偏一米會看到什麼",就可以大量減少需要真實採集的數據量。
現有的評價方式通常只用圖像質量指標(比如PSNR、SSIM)來衡量,但這些指標有個盲區:一張看起來色彩正確、紋理清晰的圖,可能在幾何結構上已經完全錯了。研究團隊設計了一種新穎的評價方法:把場景向左或向右平移1米、2米、3米,生成7個不同橫向位置的渲染圖,然後把地圖中已知的交通標誌三維坐標投影到這些渲染圖裡,用目標檢測算法檢驗這些交通標誌是否能被正確識別。如果渲染圖的幾何結構是準確的,標誌應該出現在正確的位置,探測器就能找到它;如果幾何有偏差,標誌在圖像中的位置就會錯位,探測器就會漏掉。
測試結果相當嚴峻。以ReconDrive方法為例,即使在原始行駛軌跡(橫向偏移為零)上,把渲染圖放大到傳感器原始解析度後,交通標誌的檢測召回率就已經下降了27.8%,幾乎是低解析度下降幅的四倍,說明渲染圖在細節結構上已經失真。當橫向偏移達到正負3米時,召回率下降超過80%——也就是說,大部分本該存在的交通標誌在渲染圖里根本找不到了。這意味著,現有的神經渲染方法還遠不能可靠地生成幾何準確的新視角,用它們來做自動駕駛仿真存在嚴重的安全隱患。
第四項考題是端到端自動駕駛。這個任務要求算法直接從傳感器輸入(相機圖像、雷射雷達點雲、雷達數據)預測未來的行駛軌跡。現有的端到端駕駛研究幾乎清一色在nuScenes數據集上評估,這帶來了嚴重的"過擬合"風險——算法可能只是記住了nuScenes那幾十平方公里內的道路特徵,而非真正學會了普適的駕駛能力。
KITScenes的端到端基準支持三種傳感器輸入組合:單前向相機、完整360度環視相機,以及雷射雷達加雷達加相機的全套多模態輸入。研究團隊零樣本測試(不在KITScenes上做任何微調)了四個開源基線方法:UniAD、DMAD、SSR和Epona。除了標準的ADE(平均位移誤差)和FDE(最終位移誤差)之外,團隊還藉助KITScenes的高精度地圖增加了三個基於地圖的安全指標:可行駛面生存率(軌跡是否始終在可行駛區域內)、無碰撞率(軌跡是否與雷射雷達探測到的障礙物相交)和中心線距離(軌跡偏離正常行駛車道中心線的程度)。同時引入了多機動評分
(MMS),這個指標不只對比算法預測軌跡和真實駕駛軌跡的接近程度,而是對比和至少三種人工標註的"合理駕駛方案"的相似度,避免了"只有一種正確答案"的局限性。
結果顯示,所有方法在KITScenes上都出現了明顯的性能下降,說明歐洲城市場景帶來了真實的域差距挑戰。Epona的域差距相對最小,這與它使用了更大規模的預訓練數據集(nuPlan)相符。在安全指標上,Epona的單步預測版本表現最好,無碰撞率接近98%,可行駛面生存率超過81%;而導航命令依賴型的UniAD和DMAD在這方面則明顯弱於ADE/FDE所暗示的水平,說明位移誤差和安全性之間並非簡單的正相關關係。
---
五、數據集的規模、分割方式和一些值得關注的設計細節
這個數據集目前包含1007個場景,每個場景時長10秒到60秒,總計5.7小時、162公里的同步多模態錄製,採樣頻率10Hz。錄製時間跨越2025年夏季和2025/26年冬季,刻意覆蓋不同季節,讓算法接觸到場景外觀隨季節變化的挑戰。
數據集被劃分為訓練集(534個場景)、驗證集(117個場景)、測試集(206個場景)和端到端專用測試集(127個場景)。特別值得一提的是分割策略:研究團隊發現,現有數據集的一個普遍問題是訓練集和驗證集在地理上存在重疊,導致算法可以通過"記地圖"而非"真正學習"來刷高分數。為了杜絕這個漏洞,研究團隊手動選定了幾個具有代表性道路結構的區域作為驗證區和測試區,確保測試集與訓練集的任何場景之間地理距離不少於100米,驗證集不少於70米。這是目前公開地圖構建基準中第一個具有嚴格地理隔離測試集的數據集,也是第一個在測試集中完全不提供地圖數據的,真正實現了無泄漏的公平評測。
關於當前版本的局限性,研究團隊在論文中也坦誠地指出:目前發布的版本不包含動態目標的三維邊界框、軌跡追蹤或實例分割標註,這些將在未來版本中補充。數據總量5.7小時相比nuPlan的約120小時或英偉達數據集的約1700小時確實規模較小,但研究團隊的立場是:高保真、標註完整的精選評測數據與海量預訓練數據各有其不可替代的價值,KITScenes定位於前者。端到端基準目前也只是開環評測(預測軌跡,而非真正讓車執行),閉環仿真評測留待未來工作完成,儘管Autoware仿真器的接口已經隨數據集一併發布。
---
歸根結底,這項研究在做的事情,是給自動駕駛研究社區提供一個"更苛刻的考場"。以往的考場題目太簡單,已經有不少算法考了接近滿分——但真正上路時卻遠遠達不到要求。KITScenes把考場搬到了歐洲複雜街道,加上了更遠的視野、更完整的地圖、更真實的安全性評估,讓算法在更接近真實部署條件的環境下接受檢驗。
這對普通人意味著什麼?意味著未來那輛坐在裡面可以安心讀書的無人駕駛汽車,背後那套讓它"看懂"道路的人工智慧,可能正是在這類更高標準的數據集上磨礪出來的。每一米被精確標註的交通燈、每一個與車道對應的停車線,都在為那個未來的安全多增加一點保障。
這項研究還帶來了一個更宏觀的啟示:評價指標的設計會深刻影響研究方向。深度估計那個"排名反轉"實驗是個絕佳例子——當你只看綜合數字時,最好的模型在最關鍵的遠距離場景下恰恰是最差的。這個發現本身,就值得整個領域認真反思。感興趣的讀者可以在arXiv上通過編號2606.02956找到完整論文,項目主頁在kitscenes.com也有更多可視化內容。
---
Q&A
Q1:KITScenes Multimodal數據集和nuScenes這些已有數據集相比,核心優勢在哪裡?
A:KITScenes的核心優勢體現在三個方面。傳感器方面,它的雷射雷達點雲密度是現有數據集的三倍,有效探測距離超過400米,是第二名的將近兩倍,且所有相機採用全局快門並硬體同步,圖像質量遠優於其他數據集。地圖方面,它提供了目前公開數據集中最完整的高精度地圖,包含交通燈、路標與車道的完整三維拓撲關係,並經過真實無人駕駛驗證。地理覆蓋方面,它是少有的覆蓋歐洲複雜城市街道的數據集,填補了現有數據集在歐洲場景上的空白。
Q2:KITScenes的深度估計測試發現了什麼問題?
A:測試發現,現有最先進的深度估計方法在超過100米之後性能急劇下降,超過200米時幾乎完全失效。更值得警惕的是出現了"排名反轉"現象:綜合指標排名第一的MapAnything在200米以外表現最差,而綜合排名最後的UniDAC在遠距離上反而是三者中最好的。這說明現有的綜合評價指標會掩蓋方法在關鍵距離段的嚴重缺陷,對自動駕駛安全性評估具有誤導性。
Q3:KITScenes的新視角合成基準測試發現了哪些問題?
A:測試發現,當前神經渲染方法(以ReconDrive為例)存在嚴重的幾何不準確問題。即便在原始行駛軌跡上,把渲染圖放大到傳感器原始解析度後,交通標誌的檢測召回率就下降了約28%。當橫向偏移達到正負3米時,召回率下降超過80%。這說明這些方法雖然能生成視覺上看起來不錯的圖像,但其背後重建的三維幾何結構並不準確,直接用於自動駕駛仿真存在安全風險,而傳統的圖像質量指標(如PSNR、SSIM)無法揭示這一問題。






