這項由理想汽車
(LiAuto)研發團隊主導的研究以預印本形式發布於2026年5月,論文編號為arXiv:2605.04647,感興趣的讀者可通過該編號檢索完整論文。
一、先說清楚:自動駕駛的"老毛病"是什麼
開車這件事,看起來簡單,背後其實藏著極度複雜的決策鏈條。一輛自動駕駛汽車在做出任何一個動作之前,必須先預測出自己接下來幾秒鐘要走的路徑——也就是所謂的"軌跡規劃"。現有的AI規劃系統有一個由來已久的頑疾:它們會犯兩類特別典型的錯誤。一類是"縱向錯誤",就是在速度判斷上出問題,要麼沖得太猛,要麼踩剎車踩晚了,要麼該走卻磨磨蹭蹭;另一類是"橫向錯誤",就是方向偏了,車道走歪了、彎道切線不對、甚至壓了行駛邊界。這兩類錯誤不是隨機出現的,它們是有規律可循的,是AI在模仿人類駕駛數據時系統性積累下來的偏差。
以往的規劃方案大致分幾類。有的系統一旦做出決定就直接執行,沒有任何修正機會;有的系統雖然能"回頭看",但修改一次就等於把整個決策過程從頭來一遍,代價極高;還有一類連續擴散模型雖然可以並行生成軌跡,但它本質上是在"去噪",還原的是隨機噪聲,而不是針對那兩類典型駕駛錯誤進行精準修正。
這就引出了理想汽車研究團隊的核心洞察:既然錯誤是有結構的,修正也應該是有針對性的。如果能讓規劃系統在出一個"草稿"之後,自己再審查一遍、針對性地改掉那些已知容易出錯的地方,整個系統的表現就會大幅提升。這套"打草稿再改稿"的邏輯,就是ReflectDrive-2的核心思想。
二、離散擴散:為什麼偏偏選擇這種表示方式
要理解ReflectDrive-2的設計,有必要先弄清楚什麼是"離散擴散"以及它和其他方法的本質區別。
傳統的自動駕駛規劃輸出的是一段連續的數值軌跡,就像在坐標紙上畫出一條光滑曲線。這種連續軌跡很精確,但修改起來很麻煩——你如果想改某一段,就必須重新生成整條曲線,或者額外訓練一個專門的"修改網路"。
ReflectDrive-2選擇了一種不同的表示方式:把未來8個時間點的駕駛路徑離散化為一組"坐標詞彙表"里的離散符號(token,可以理解為像文字一樣的"字符")。具體來說,未來4秒內的軌跡被拆分成8個路徑點,每個路徑點有兩個坐標(縱向和橫向),一共形成16個離散的"位置字符"。
這種離散化表示的好處在於,它天然支持"局部修改"。如果想改掉某幾個位置字符,直接把那幾個字符重寫就行了,完全不影響其他字符,也不需要任何額外的修改網路。這就好比寫文章時,發現某幾個詞用錯了,你可以直接把那幾個詞改掉,而不必把整篇文章重新寫一遍。
在這個基礎上,研究團隊引入了"掩碼離散擴散"機制。簡單說,訓練時系統會把某些位置字符隨機"遮住"(替換成[MASK]),然後學習如何根據上下文把遮住的內容"猜"回來。推理時,系統從一個全部被遮住的序列開始,每一輪"揭開"一批最有把握的字符,經過幾輪後就生成了完整軌跡。整個生成過程可以並行進行,效率遠高於逐字輸出的自回歸方式。
三、三個角色同台:決策、草稿、修稿
ReflectDrive-2的完整推理過程可以類比為一個寫作團隊的工作流程:先由編輯確定寫作方向(決策),再由寫手起草文章(草稿),最後由校對把文章中的典型錯誤改掉(修稿)。
第一步是"目標點預測",相當於編輯確定文章的主題方向。系統會先在俯視視角的地圖上預測出若干個"目標位置"候選點,每一個目標點代表一種可能的行為方案——比如保持車道、變道超車、讓行、還是以不同路線過彎。系統會用"非極大值抑制"(可以理解為去重,把太相近的候選點合併掉,保留差異明顯的幾個)篩選出多個行為假設。每一個目標點都會觸發一個獨立的軌跡生成分支。
第二步是"掩碼擴散起草",就是寫手根據確定的主題方向起草正文。系統以確定的目標點為錨,用幾輪並行的掩碼解碼生成完整的16個位置字符軌跡。這個生成過程很快,每輪都把最有把握的字符從[MASK]解鎖出來,一般只需要3到5輪就能收斂。
第三步是"AutoEdit自動修稿",這也是整個系統最獨特的部分。AutoEdit直接讀取草稿軌跡的具體字符,預測應該把哪些字符換成什麼,然後只把置信度較低的字符替換掉,目標點字符保持不變(因為目標點代表的是行為意圖,不能隨意改變)。關鍵在於,AutoEdit用的是和草稿生成完全相同的那個神經網路,不需要任何額外的修改網路。這種"一個模型身兼兩職"的設計,既節省了計算資源,又讓修改和生成在同一個語義空間內進行,保持了一致性。
整個推理鏈可以表示為:場景理解 → 生成若干目標點候選 → 每個目標點並行生成軌跡草稿 → AutoEdit逐字符修稿 → 選出最優結果執行。
四、為什麼光靠訓練還不夠,必須用強化學習
讀到這裡你可能會有一個疑問:AutoEdit這個修稿步驟聽起來很合理,但直接在訓練時教會它就行了,為什麼還要專門用強化學習來強化?
研究團隊給出了一個非常直白的答案,而且用實驗數據做了驗證。在只用監督學習訓練的情況下,AutoEdit確實能修稿,但效果非常有限——在NAVSIM基準測試中,加上AutoEdit之後分數最多只提升了0.3分(PDMS,這是一個綜合評分體系,滿分是100分)。換句話說,AutoEdit的能力"存在於模型的權重里",但在實際推理時幾乎沒有發揮出來。
為什麼會這樣?因為監督學習階段,起草網路和修稿網路是分開優化的。起草網路只負責讓草稿儘量接近專家軌跡,修稿網路只負責讓修改後的軌跡接近乾淨軌跡。兩者各顧各的,沒有人告訴起草網路"你需要給修稿留餘地",也沒有人告訴修稿網路"你的修改應該讓最終駕駛表現變好"。兩個步驟之間的協作是脫節的。
強化學習的作用就是把這條鏈條"焊死"。具體做法是:把整個"起草+修稿"的過程當作一個完整的決策序列,在序列最末尾才給出獎勵信號(就是最終軌跡的駕駛質量得分),然後把這個獎勵反向傳播,讓起草步驟和修稿步驟的每一個字符替換動作都分擔這個獎勵或懲罰。
結果立竿見影:經過強化學習訓練後,AutoEdit帶來的提升從0.3分跳升到了1.9分。起草網路學會了主動生成"容易被修稿改好"的草稿——也就是那種自身有點偏差但偏差方向和幅度都在AutoEdit擅長修正的範圍內的軌跡。修稿網路則學會了把修改方向對準駕駛表現的提升,而不是單純降低字符級別的不確定性。兩者形成了真正的配合,而不是各自為戰。
五、AutoEdit的訓練:專門針對"已知錯誤模式"設計的干擾
AutoEdit能修正錯誤,但它首先得知道"什麼樣的錯誤需要修"。研究團隊設計了一套叫做"結構感知擾動"的訓練方案,專門針對前面提到的兩類典型駕駛錯誤製造模擬樣本。
針對縱向進度錯誤,訓練時會把專家軌跡沿著弧長方向進行縮放:用一個隨機係數乘以每個路徑點的弧長坐標。當這個係數小於1時,軌跡變短,模擬"走得太保守、速度不足";當係數大於1時,軌跡變長,模擬"衝過頭、剎車太晚"。
針對橫向偏航錯誤,訓練時會把整段軌跡在自車坐標系裡旋轉一個隨機角度,模擬"方向偏了"的情況。旋轉時整段軌跡一起轉,保持了軌跡的平滑性,不會產生不合理的跳變。
把這些人工"弄歪"的軌跡轉成離散字符,餵給AutoEdit,訓練目標是讓它把這些錯誤的字符序列直接映射回正確的字符序列。這種訓練方式讓AutoEdit在遇到真實推理時產生的偏差時,能認出"這是我見過的那類錯誤",並用針對性的方式修正它,而不是單純憑藉對字符不確定性的估計來盲目修改。
六、空間約束:不能壓出車道外
除了上述兩個損失函數,研究團隊還加入了一個"可行駛區域場損失",專門防止預測軌跡跑出行駛邊界。
具體做法是:根據當前場景的地圖資訊,生成一個俯視視角的"代價地圖",越靠近不可行駛區域(比如路邊、綠化帶、對向車道),代價值越高;處於可行駛區域內的點代價為零,同時還有一個容忍緩衝帶,給緊貼邊界的位置一點寬容。然後把模型預測的軌跡點概率分布和這個代價地圖做加權疊加,懲罰那些把高概率質量分配給高代價區域的預測。
這個損失函數不直接約束最終輸出的軌跡點坐標,而是在訓練時就把"不要越界
"的傾向編碼進模型的概率分布,讓模型從源頭上就傾向於在可行駛區域內生成軌跡。實驗數據顯示,加入這個損失函數後,可行駛區域合規率(DAC)一項從93.9分跳升至97.0分,整體PDMS分從84.8分提升至87.2分,是單個改進項中提升幅度最大的一項。
七、在車上跑起來:四項工程優化讓延遲從45ms降到31.8ms
一套再先進的規划算法,如果在車載晶片上跑得太慢,也沒有實用價值。理想汽車的研究團隊在NVIDIA Thor晶片上對整個推理棧進行了系統性優化,最終把每幀平均延遲從45ms壓縮到31.8ms,整體加速1.42倍。
第一項優化是"共享前綴KV緩存復用"。在整個決策—起草—修稿的流程中,目標點預測、軌跡生成、AutoEdit修稿三個階段都需要"看"同一份場景資訊(攝影機圖像、導航指令、自車狀態)。這份場景資訊對應的注意力計算結果(KV緩存)只需要計算一次,三個階段共用,不用重複計算。這一優化讓注意力算子的延遲從0.28ms降至0.08ms,加速了3.5倍。
第二項是"動作緩存迴繞與合併重寫"。由於掩碼擴散每一步都會改變一些字符,與這些字符相關的緩存就會失效。研究團隊讓緩存指針迴繞到共享前綴的邊界,只重算那一小塊"動作字符塊"的緩存,而不是重算整個序列。在多塊邊界處,他們還把緩存重算和下一塊的第一步字符更新合併成一步操作,把邊界延遲從14.7ms壓縮至11.5ms。
第三項是"動作專家前饋網路"。軌跡字符解碼只用到一個受限的字符詞彙表,輸出序列也很短。研究團隊把專門處理軌跡字符的那一層前饋網路的隱藏維度從4096壓縮到1024,參數量大幅減少,每個塊的前饋延遲從2.47ms降至0.95ms。他們在軌跡質量指標上做了驗證:雖然最近距離誤差(minSADE)略微上升,但平均誤差(meanSADE)和路徑級誤差指標都有所改善,總體上是可以接受的代價。
第四項是"融合片上字符更新CUDA核"。不管是掩碼起草還是AutoEdit修稿,每一步都需要對字符做置信度排序、選擇哪些字符提交、更新字符狀態。如果在CPU端做這些操作,每一步都要進行設備間的數據同步,開銷很大。研究團隊把這三個操作合併成一個在GPU上直接運行的CUDA核函數,把每步更新延遲從0.45ms壓縮至0.06ms,加速7.5倍,是所有單項優化中加速比最高的一項。
此外還有一項系統級設計叫"交替步解碼"。在實際行車中,相鄰兩幀的場景變化不大,完全沒必要每幀都重新從頭規劃。研究團隊設計了一種"全步幀+輕步幀"交替模式:全步幀執行完整的決策—起草—修稿流程;輕步幀則把上一幀的軌跡轉換到當前自車坐標系,然後只用AutoEdit做一次快速的"時序細化"。全步幀需要45ms,輕步幀只需要18.6ms,平均下來就是31.8ms。在質量評估中,輕步幀替換全步幀導致綜合評分只下降了0.20分,而可行駛區域合規率反而略微提升,說明這種做法在質量上幾乎無損。
八、在NAVSIM基準上的成績單
NAVSIM是一個由學術界和工業界共同建立的自動駕駛閉環規劃基準,基於nuPlan數據集。它的核心評分指標叫PDMS(預測駕駛模型評分),是五個子指標的綜合:無責任碰撞率(NC)、可行駛區域合規率(DAC)、碰撞時間餘量(TTC)、舒適度(Comf)、自車進度(EP)。
在標準單軌跡評估模式下,ReflectDrive-2以僅使用攝影機(不藉助雷射雷達)為條件,達到了91.0的PDMS分。作為對比,同樣僅使用攝影機的其他VLA規劃系統中,AutoVLA得到89.1分,DriveVLA-W0得到90.2分,ReCogDrive得到90.8分。使用攝影機加雷射雷達的GoalFlow得到90.3分,DiffusionDrive得到88.1分。ReflectDrive-2在不依賴雷射雷達的情況下超過了所有這些對比方法。
拆解各子指標,ReflectDrive-2最顯眼的優勢是"自車進度"這一項,得到89.4分,是所有列出方法中最高的。這意味著車輛在保證安全的前提下,能更積極地完成路程任務,而不是過於保守地停停走走。可行駛區域合規率98.1分和舒適度100分說明車輛始終保持在正確區域內行駛,乘坐體驗也很平順。碰撞相關指標NC和TTC相對不是最優,這也與更積極的進度策略有一定關係。
在"最優6選1"的評估模式下,系統會並行採樣6個目標點各生成一條軌跡,然後由評分器選出其中PDMS最高的那條上報。這個模式下ReflectDrive-2達到94.8分,和NAVSIM公布的人類駕駛基準分數(也是94.8分)完全持平。從單條軌跡91.0分到最優選擇94.8分之間有3.8分的差距,說明目標點多樣性是真實的:不同目標點確實對應不同的行為策略,而不是同一條軌跡的噪聲變體。
九、消融實驗:每一個組件值多少分
研究團隊還做了一系列"去掉某一個零件看還能跑多快"式的消融實驗,把每個組件的貢獻量化得清清楚楚。
僅用基礎掩碼擴散損失訓練時,PDMS是84.8分。加上可行駛區域場損失後,分數跳到87.2分,提升了2.4分,主要體現在DAC從93.9跳到97.0,說明這個空間約束損失確實有效防止了軌跡越界。在此基礎上加入AutoEdit的監督訓練,分數再提升0.5分到87.7分。最後加上全軌跡強化學習,分數達到89.1分,其中EP從82.2大幅提升至89.3。再在推理時開啟AutoEdit,最終到達91.0分。
從這個鏈條可以看出,空間約束是提升基礎安全性的核心,強化學習是提升進度表現的核心,而AutoEdit的真正價值只有在強化學習充分激活它之後才完整釋放。
在推理步數方面,實驗顯示生成步數和AutoEdit步數都在3到5步時達到最優,再增加步數反而有可能把原本好的草稿"改壞",這和掩碼擴散的基本特性一致:少數幾輪足以收斂出一條好軌跡,過度疊代會引入不必要的擾動。
在目標點數量和去重閾值方面,提供更多候選目標點能暴露更多行為假設,評分也更高;去重閾值設在約1.2米最優,太小會保留重複的候選,太大會過濾掉本應有意義的替代路線。
說到底,ReflectDrive-2做的事情並不神秘:它給自動駕駛規劃系統裝上了一套"先打草稿、再自我審稿"的工作機制,而且用強化學習把打稿人和改稿人的激勵對齊了——改稿是為了讓駕駛結果變好,打稿是為了給改稿留出有意義的空間。這套邏輯在實驗數字上的體現就是:AutoEdit在監督學習階段只貢獻了0.3分的提升,在強化學習介入後貢獻了1.9分,整整擴大了六倍多。這個對比數字是整篇論文最核心的那條線索,其他一切設計選擇都可以從這裡出發理解。
對於普通人來說,這項研究意味著未來搭乘自動駕駛車輛時,車輛在做出路徑決策後還會快速自檢一遍——就像一個有經驗的司機在轉動方向盤前會下意識地再確認一下方向是否正確。這種自我糾錯能力的引入,或許是自動駕駛系統從"能用"走向"好用"的關鍵一步之一。
對那些對技術細節感興趣的讀者,研究團隊還坦誠地指出了當前系統的局限:軌跡字符的坐標解析度受詞彙表大小限制;當前的干擾訓練只覆蓋了縱向和橫向兩類錯誤,多車交互場景中的讓行時機、切入響應等更複雜的錯誤模式還有待擴展;強化學習用的獎勵函數仍然是一個輕量的代理指標,距離真實世界的駕駛目標還有距離。這些開放問題為後續研究指明了方向,也讓這套工作的邊界變得非常清晰。
有興趣進一步研究的讀者可以通過arXiv編號2605.04647查閱完整論文,其中包含所有公式推導、超參數設置和更詳細的實驗數據。
Q&A
Q1:ReflectDrive-2的AutoEdit和普通的軌跡優化有什麼本質區別?
A:普通軌跡優化通常需要一個獨立的"優化網路"或者依賴手工設計的平滑規則,和生成軌跡的主網路是分離的。AutoEdit用的是和起草軌跡完全相同的那個網路,直接在離散字符層面做原位替換,不需要任何額外模組。更關鍵的區別是,AutoEdit通過強化學習和起草網路聯合優化,兩者共享同一個駕駛質量獎勵信號,形成了真正的協作,而不是串聯的兩個獨立模組。
Q2:NAVSIM的PDMS分數91.0分和人類駕駛的94.8分差距有多大,實際駕駛中意味著什麼?
A:PDMS是五個子指標的綜合分,單條軌跡評估下兩者相差3.8分。在ReflectDrive-2"最優6選1"的模式下,系統已經與人類基準持平。3.8分的差距主要體現在碰撞相關指標(NC、TTC)和極端場景處理上,實際駕駛中對應的是在少數複雜交互場景中的決策保守性或激進性略有偏差,並非系統性安全問題。
Q3:強化學習階段的獎勵信號是怎麼計算的,車輛需要真的上路跑嗎?
A:不需要真實上路。NAVSIM是一個"數據驅動的非反應式仿真"基準,獎勵信號通過回放真實駕駛數據並用規則評估預測軌跡的質量來計算,包括碰撞檢測、區域合規、舒適度、進度等維度,整個過程在離線數據集上完成,不依賴閉環仿真器或真實車輛。






