這項由英偉達、北京大學、香港大學和麻省理工學院聯合推進的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.23163,感興趣的讀者可通過該編號檢索完整原文。研究的核心成果被命名為**Fast-dDrive**,它試圖回答一個困擾自動駕駛行業多年的根本問題:能不能讓車載AI既反應足夠準確,又跑得足夠快?
要理解這個問題的難度,可以先想像這樣一個場景。你雇了一位私人司機,這位司機有兩種工作風格。第一種司機極其謹慎,每次做決定都要仔仔細細地把每一個細節想清楚,路線規劃無懈可擊,但思考太慢,當你需要他在三秒內緊急避讓時,他還在推演第一步該往哪裡打方向盤。第二種司機反應飛快,腦子裡閃過整條路線就直接踩油門,但因為沒有逐步推敲,偶爾會出現莫名其妙的失誤,在路上突然走岔了方向。Fast-dDrive的目標,就是培養出一位既快又準的第三類司機。
一、兩種舊方案,各有致命短板
現有的自動駕駛AI大致分為兩個流派,就像兩種截然不同的烹飪哲學。
第一個流派叫做"自回歸"方案,可以理解為"一個字一個字往外說"的廚師。這位廚師做菜時,每放一種調料都要先嘗一下味道,再決定下一步放什麼。這樣做出來的菜邏輯嚴密,每一步都承接上一步。放在自動駕駛里,就是AI每次只預測軌跡上的一個點,把這個點預測完了,再根據結果預測下一個點。這種方式的問題在於,如果第一個點預測得有一點點偏差,這個偏差會隨著每一步的疊加越來越大,就像打檯球時初始角度偏了一度,球滾到最後可能就完全不在你預想的落點上了。更麻煩的是,這種"每次只動一步"的工作方式讓晶片非常低效——車載計算晶片大部分時候都在等待而不是在計算,就像一台高性能跑車卻只能在停車場裡一米一米地挪動。論文中的數據顯示,這類方案在一台英偉達H100晶片上,每秒只能處理約51.6個詞元(可以粗略理解為"計算單位"),延遲高達將近8秒。
第二個流派是全序列擴散方案,這類方案的哲學恰好相反,更像是"一次把所有調料全部倒進鍋里再慢慢調整"的廚師。AI會先把整段輸出(包括對路面狀況的感知、推理解釋、以及未來軌跡)全部隨機打亂,然後經過多輪疊代,逐漸把這堆亂碼還原成有意義的內容。這種方法的好處是可以讓整段輸出在全局範圍內相互參考,理論上更連貫。但它帶來了兩個嚴重問題。首先,因為整段輸出都是"同時在調整"的,電腦無法緩存已經算好的部分,每次疊代都要從頭算一遍,速度反而比自回歸方案還要慢。其次,當AI對路面狀況的感知描述和最終軌跡規劃處於同一個"大鍋"里一起攪動時,就可能出現論文所稱的"邏輯泄漏"——規劃出來的軌跡會反過來"污染"AI對當前路面的感知描述,就好比廚師還沒嘗到食材的原味,就已經被最終成品的期望口感帶著走了,本末倒置。
二、Fast-dDrive的核心思路:分區域、有先後、保緩存
Fast-dDrive的解法,可以用一個具體的比喻來理解:把整個自動駕駛輸出過程比作一本分章節的劇本。
這本劇本固定分為四章,順序絕對不能顛倒。第一章是"關鍵目標感知",AI要判斷周圍有沒有行人、有沒有其他車輛、路面是否濕滑等十二項基本情況。第二章是"解釋與推理",AI用自然語言說清楚自己當前對路面的理解。第三章是"宏觀行為決策",AI決定是加速還是減速、是直行還是轉彎。第四章才是"軌跡規劃",給出未來五秒內五個具體的空間坐標點。
Fast-dDrive的關鍵創新在於:在每一章內部,AI可以像第二個流派那樣"整體思考",讓這一章內部的所有詞元相互參考、共同優化;但在章與章之間,必須嚴格按照第一章→第二章→第三章→第四章的順序推進,前一章完全確定後才能開始下一章,絕不允許後面章節的內容影響前面章節的判斷。這樣就從根本上杜絕了"邏輯泄漏":軌跡規劃的結果永遠不會反過來篡改AI對路面的感知描述。
與此同時,由於每章內部是整體處理的,而章節之間是順序推進的,電腦就可以把已經完成的章節結果緩存起來(這在技術上叫做KV緩存),後續章節在計算時直接復用,不需要重新計算。這相當於劇本每寫完一章,就把這章的內容保存好,下一章直接接著寫,而不用每寫一個字都把整本劇本從頭讀一遍。
三、腳手架技術:讓AI只專注於真正需要思考的地方
在Fast-dDrive的四章劇本中,研究團隊發現了一個很有意思的規律:劇本里有大量內容其實是固定不變的"格式框架",比如JSON格式的大括號、引號、鍵名等標點符號和關鍵詞。這些內容就像建築工地上的腳手架,在每一次施工中都是完全一樣的結構,不需要工人費心去"設計",直接搭好就行。
具體來看,在總共404個需要輸出的詞元中,有124個是這樣的"腳手架詞元",占比約30%。研究團隊乾脆把這些詞元預先填好,直接告訴AI"這些位置的內容是固定的,你不需要思考",讓AI把全部精力集中在剩下280個真正需要預測的"價值詞元"上。這個策略不僅減少了約30%的計算量,還帶來了一個額外的好處:輸出的格式百分之百合法,永遠不會出現括號不匹配、鍵名拼錯之類的格式錯誤。
更進一步,研究團隊為四個章節分別設置了不同的學習權重和不同的"練習難度"。因為第四章的軌跡規劃直接決定汽車怎麼開,搞錯了可能出事故;而第二章的解釋文字寫得不夠優美,最多只是表達不夠流暢,不會有安全風險。所以在訓練階段,AI在軌跡和宏觀行為這兩章上犯錯的懲罰會被放大——對應的損失權重分別設置為3.0和2.0,而感知和解釋兩章的權重只有1.0和1.5。同時,軌跡章節被設置為"高難度練習模式",在訓練時故意給它更大比例的遮蓋(遮蓋更多詞元),迫使AI在這個最關鍵的部分練得更加紮實。這兩項機制只在訓練階段生效,推理時沒有任何額外開銷。
四、兩種推理模式:一個看速度,一個看質量
正因為訓練時同時保留了兩種能力——擴散式的"整體聯想"能力和自回歸式的"逐步驗證"能力——Fast-dDrive在實際使用時可以根據需要選擇兩種不同的工作模式。
第一種叫做"章節擴散模式"。在這種模式下,AI對每一章進行多輪疊代優化,逐漸把這一章的內容從隨機亂碼還原成有意義的預測結果,然後緩存好這一章,繼續處理下一章。整個過程純粹依賴擴散式思維,不調用逐步驗證能力。這種模式的優點是思考過程具有一定的隨機性,可以產生多種不同的可能軌跡,為後續的多軌跡採樣提供了基礎。
第二種叫做"腳手架推測解碼模式",這是Fast-dDrive的主打推理方式,也是性能最強的一種。它的工作流程分為三步,整個過程一環扣一環。第一步,對於每個處理塊,所有屬於"腳手架"的固定詞元直接無條件接受,完全跳過計算,相當於把預先知道答案的題目全部跳過。第二步,擴散頭(具有雙向視野的那部分AI)對這個塊里所有真正需要預測的詞元,在一次前向傳播中同時生成草稿答案——就像一位學生拿到試卷後快速瀏覽所有題目,然後同時在草稿紙上把所有題目的初步答案都寫下來。第三步,自回歸頭(具有嚴格因果視野的那部分AI)從左到右逐個檢查草稿答案,如果認可就接受,一旦發現不認可的地方就用自己的答案替換,並且丟棄後續所有草稿答案,同時還能額外"獎勵"接受一個額外詞元。整個流程讓每個塊只需要兩次前向傳播(一次草稿、一次驗證),無論塊的大小如何,都是兩次。實測顯示,這種模式每步能提交約4.9個詞元,每秒處理210.4個詞元,延遲僅1.9秒,相比自回歸基線快了4倍以上。
五、用"分叉路線"換取更準確的軌跡
Fast-dDrive還提出了一種低成本的精度提升手段,邏輯簡單但效果明顯。
核心思路基於一個統計學中的基本原理:如果你問100個人同一道估算題,他們的答案可能各有偏差,但這100個答案的平均值會比任何一個單獨的答案都更接近真實值,因為各人隨機犯的錯誤會相互抵消。Fast-dDrive把這個原理用在了軌跡預測上。
具體操作是這樣的:前三章(感知、解釋、宏觀行為)的內容是確定性的,每次運行結果完全一樣,因此它們對應的計算緩存也完全一樣。所以只需要計算一次前三章,然後把這份計算結果"分叉"出N份拷貝,在第四章(軌跡規劃)階段讓這N份拷貝各自獨立地加入一點隨機性,生成N條略有差異的軌跡。最後把這N條軌跡取平均,得到最終輸出。由於每次"分叉"之後只需要額外計算一個很短的第四章,而不是重新跑完整的四章,額外計算成本非常小。
研究結果顯示,當N取4時,軌跡的平均偏移誤差(ADE@5s,即5秒內軌跡與真實路徑的平均距離偏差)相比單次推理有可觀改善,而耗時僅約翻倍(因為只有短小的第四章被重複了四次)。論文中還展示了一個典型案例:四條分叉軌跡在近處幾乎重合,越到遠處(五秒末尾的位置)分歧越大,但它們的均值軌跡與真實參考路徑高度吻合——這完美地驗證了"平均消除隨機誤差"的統計原理。
六、在兩個權威測試集上的成績單
研究團隊在兩個行業內認可的公開測試集上對Fast-dDrive進行了評估。
第一個是Waymo開放數據集的端到端駕駛子集(WOD-E2E),這個數據集專門收錄了各種極端的長尾駕駛場景,比如道路施工、異常天氣、罕見交通狀況等。衡量指標主要有兩個:ADE(平均位移誤差,就是預測軌跡和真實路徑的平均距離偏差,越小越好)以及RFS(評分員反饋分數,是一種人工評估指標,分越高越接近真人駕駛員的判斷)。在測試集上,Fast-dDrive(腳手架推測解碼模式)的3秒ADE達到1.254米、5秒ADE達到2.907米,是所有對比方法中最低的兩個數字。加入N=4多軌跡平均後,這兩個數字進一步降至1.240米和2.821米。RFS方面,Fast-dDrive在擴散類方法中排名最高。與此同時,速度上同比自回歸基線快了4倍,同比全序列擴散方案快了6倍。集成到一個名為SGLang的高性能推理框架後,藉助更底層的計算圖優化,整體吞吐量達到每秒608.5個詞元,延遲僅0.67秒,相比自回歸基線整整快了11.8倍,而精度幾乎沒有損失(RFS從7.931微降至7.914)。
第二個測試集是nuScenes,這是一個以城市常規駕駛場景為主的經典數據集。評估指標是L2誤差,即在1秒、2秒、3秒三個時間點上預測位置和真實位置的歐式距離。Fast-dDrive在這三個時間點的誤差分別為0.12米、0.33米、0.50米,平均L2誤差0.32米。這個成績比自回歸帶推理的系列(如DriveVLM的0.40米、AutoVLA的0.48米)好了一大截,甚至比不帶任何自然語言推理的純規劃系統(如BEV-Planner的0.35米)還要好,相比同為擴散類的dVLM-AD(0.41米)提升了22%。
七、消融實驗:拆開來看哪部分在起作用
為了證明各個組件的必要性,研究團隊做了一系列"拆掉某個零件看會怎樣"的對照實驗。
在訓練策略的驗證上,研究團隊測試了四種組合:什麼都不加(基線)、只加章節重要性加權損失(IWL)、只加章節自適應噪聲調度(SNS)、兩者都加。結果顯示,只加IWL時,ADE@5s從2.028降到2.003,RFS從7.735升到7.855,改善明顯;只加SNS時效果稍弱,ADE@5s反而略微上升到2.050,但RFS也有一定改善達到7.807;兩者同時使用時ADE@5s為2.034,RFS達到最高的7.916,說明兩個機制在某種程度上是互補的,分別從不同角度優化了訓練效果。
在推理模式的對比上,腳手架推測解碼模式(SS)在速度和精度上均優於普通自推測解碼模式(Self-Spec),原因就是腳手架詞元的自動接受減少了約30%的驗證計算量,同時章節對齊的塊劃分讓草稿階段的上下文更完整、草稿命中率更高。章節擴散模式(SD)的速度介於兩者之間,精度略低於推測解碼模式,但其隨機性恰好為多軌跡平均採樣提供了可利用的多樣性,是一個實用的替代選項。
八、五個真實駕駛場景的實際表現
論文附錄提供了五個來自Waymo真實場景的案例演示,從中可以直觀感受Fast-dDrive的實際能力。
第一個場景是夜間無障礙左轉。路面完全空曠,沒有其他車輛、行人或特殊交通元素。AI正確識別出這是一個無干擾場景,在"宏觀行為"章節輸出加速左轉,並生成了一條平滑向左彎曲的軌跡,五秒末端的橫向偏移約10.72米,與真實參考軌跡高度吻合。
第二個場景是跟隨皮卡車直行。前方有一輛皮卡,AI正確將其標記為"關鍵目標:附近車輛=是",判斷宏觀行為為"保持速度+跟隨車道",並輸出一條較長的直行軌跡(五秒末端約前進80米),與真實路徑的縱向範圍一致。
第三個場景是多車道道路右轉。AI正確判斷為"保持速度+右轉",輸出的軌跡五秒末橫向偏移達到-17米,弧度與真實參考路徑緊密貼合,從正面攝影機視角一直延伸到右側攝影機視角區域。
第四個場景是綠燈通過信號交叉口。AI正確識別出前方信號燈處於綠色狀態,將其標記為"關鍵目標:交通元素=是",並在推理文字中明確說明"信號燈當前為綠,允許通行",輸出直行加速軌跡,與真實路徑方向完全一致。
第五個場景也是整個演示影片中的核心案例:雨天停車標誌路口左轉。AI同時識別出停車標誌和濕滑路面兩個關鍵因素,在感知章節同時標記"交通元素=是"和"天氣狀況=是",在宏觀行為章節輸出"減速+左轉",推理文字中明確提到"路面濕滑,制動距離增加,需在轉彎前確保安全停車或讓行"。輸出的軌跡呈現出明顯的減速彎曲弧線,與真實參考路徑高度吻合。
歸根結底,Fast-dDrive在這個領域做了一件看起來簡單、做起來極難的事:它沒有"二選一"地在速度和精度之間妥協,而是通過把輸出結構的先驗知識編碼進模型的訓練和推理設計中,讓兩者同時變得更好。把已知不變的格式框架固定下來、讓AI專注於真正需要推理的內容,這個思路本身並不複雜,但把它系統地貫穿進訓練目標、推理算法和測試時的縮放策略,才形成了這篇論文的完整貢獻。對於自動駕駛工程師來說,這套方案提供了一條實際可走的路徑:在不需要更大模型、不需要更強晶片的前提下,通過更聰明的結構設計,把現有3B參數規模的視覺語言模型推向接近實時的車載部署邊界。對於更廣泛關注AI應用的讀者來說,這個研究也提示了一個普適原則:當AI的輸出具有已知結構時,把這個結構明確地告訴AI,往往能同時帶來效率和質量上的雙重收益,而不必在兩者之間做取捨。有興趣深入了解技術細節的讀者,可以通過arXiv編號2605.23163查閱完整論文。
---
Q&A
Q1:Fast-dDrive和普通自動駕駛AI相比,為什麼速度能快這麼多?
A:Fast-dDrive通過三個機制實現提速。首先,它預先填好了輸出中約30%的固定格式符號,AI不需要"思考"這些內容。其次,它把整個輸出分成四個有順序的章節分別處理,每完成一章就把結果緩存起來,後續章節直接復用,不用重複計算。第三,它用擴散頭快速生成草稿,再用自回歸頭批量驗證,相比一個字一個字地生成,每步能確認約5個詞元,綜合加速超過10倍。
Q2:多軌跡平均採樣會不會讓車開得更保守或者路線變奇怪?
A:不會。多軌跡平均採樣只在第四章(軌跡規劃)階段引入隨機性,而且只是在AR驗證器中使用非零溫度採樣,前三章(感知、推理、宏觀行為)仍然是確定性的。平均之後得到的軌跡是多個合理軌跡的中心值,實驗數據顯示它比任何單條軌跡都更接近真實參考路徑,不會產生"折中出奇怪路線"的問題。
Q3:Fast-dDrive需要雷射雷達或高精地圖嗎?
A:不需要。Fast-dDrive只使用普通攝影機圖像、車輛自身的速度加速度等狀態數據,以及一條簡單的自然語言導航指令(比如"下一個路口左轉")。在WOD-E2E測試中使用三個前向攝影機,在nuScenes測試中只用一個前向攝影機的歷史三幀,完全不依賴雷射雷達、毫米波雷達或高精度地圖。






