英偉達與北大聯手破解自動駕駛「兩難困境」：讓AI司機既聰明又快速的秘密武器

這項由英偉達、北京大學、香港大學和麻省理工學院聯合推進的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.23163，感興趣的讀者可通過該編號檢索完整原文。研究的核心成果被命名為**Fast-dDrive**，它試圖回答一個困擾自動駕駛行業多年的根本問題：能不能讓車載AI既反應足夠準確，又跑得足夠快？

贊助商廣告

要理解這個問題的難度，可以先想像這樣一個場景。你雇了一位私人司機，這位司機有兩種工作風格。第一種司機極其謹慎，每次做決定都要仔仔細細地把每一個細節想清楚，路線規劃無懈可擊，但思考太慢，當你需要他在三秒內緊急避讓時，他還在推演第一步該往哪裡打方向盤。第二種司機反應飛快，腦子裡閃過整條路線就直接踩油門，但因為沒有逐步推敲，偶爾會出現莫名其妙的失誤，在路上突然走岔了方向。Fast-dDrive的目標，就是培養出一位既快又準的第三類司機。

一、兩種舊方案，各有致命短板

現有的自動駕駛AI大致分為兩個流派，就像兩種截然不同的烹飪哲學。

第一個流派叫做"自回歸"方案，可以理解為"一個字一個字往外說"的廚師。這位廚師做菜時，每放一種調料都要先嘗一下味道，再決定下一步放什麼。這樣做出來的菜邏輯嚴密，每一步都承接上一步。放在自動駕駛里，就是AI每次只預測軌跡上的一個點，把這個點預測完了，再根據結果預測下一個點。這種方式的問題在於，如果第一個點預測得有一點點偏差，這個偏差會隨著每一步的疊加越來越大，就像打檯球時初始角度偏了一度，球滾到最後可能就完全不在你預想的落點上了。更麻煩的是，這種"每次只動一步"的工作方式讓晶片非常低效——車載計算晶片大部分時候都在等待而不是在計算，就像一台高性能跑車卻只能在停車場裡一米一米地挪動。論文中的數據顯示，這類方案在一台英偉達H100晶片上，每秒只能處理約51.6個詞元（可以粗略理解為"計算單位"），延遲高達將近8秒。

贊助商廣告

第二個流派是全序列擴散方案，這類方案的哲學恰好相反，更像是"一次把所有調料全部倒進鍋里再慢慢調整"的廚師。AI會先把整段輸出（包括對路面狀況的感知、推理解釋、以及未來軌跡）全部隨機打亂，然後經過多輪疊代，逐漸把這堆亂碼還原成有意義的內容。這種方法的好處是可以讓整段輸出在全局範圍內相互參考，理論上更連貫。但它帶來了兩個嚴重問題。首先，因為整段輸出都是"同時在調整"的，電腦無法緩存已經算好的部分，每次疊代都要從頭算一遍，速度反而比自回歸方案還要慢。其次，當AI對路面狀況的感知描述和最終軌跡規劃處於同一個"大鍋"里一起攪動時，就可能出現論文所稱的"邏輯泄漏"——規劃出來的軌跡會反過來"污染"AI對當前路面的感知描述，就好比廚師還沒嘗到食材的原味，就已經被最終成品的期望口感帶著走了，本末倒置。

二、Fast-dDrive的核心思路：分區域、有先後、保緩存

Fast-dDrive的解法，可以用一個具體的比喻來理解：把整個自動駕駛輸出過程比作一本分章節的劇本。

這本劇本固定分為四章，順序絕對不能顛倒。第一章是"關鍵目標感知"，AI要判斷周圍有沒有行人、有沒有其他車輛、路面是否濕滑等十二項基本情況。第二章是"解釋與推理"，AI用自然語言說清楚自己當前對路面的理解。第三章是"宏觀行為決策"，AI決定是加速還是減速、是直行還是轉彎。第四章才是"軌跡規劃"，給出未來五秒內五個具體的空間坐標點。

Fast-dDrive的關鍵創新在於：在每一章內部，AI可以像第二個流派那樣"整體思考"，讓這一章內部的所有詞元相互參考、共同優化；但在章與章之間，必須嚴格按照第一章→第二章→第三章→第四章的順序推進，前一章完全確定後才能開始下一章，絕不允許後面章節的內容影響前面章節的判斷。這樣就從根本上杜絕了"邏輯泄漏"：軌跡規劃的結果永遠不會反過來篡改AI對路面的感知描述。

贊助商廣告

與此同時，由於每章內部是整體處理的，而章節之間是順序推進的，電腦就可以把已經完成的章節結果緩存起來（這在技術上叫做KV緩存），後續章節在計算時直接復用，不需要重新計算。這相當於劇本每寫完一章，就把這章的內容保存好，下一章直接接著寫，而不用每寫一個字都把整本劇本從頭讀一遍。

三、腳手架技術：讓AI只專注於真正需要思考的地方

在Fast-dDrive的四章劇本中，研究團隊發現了一個很有意思的規律：劇本里有大量內容其實是固定不變的"格式框架"，比如JSON格式的大括號、引號、鍵名等標點符號和關鍵詞。這些內容就像建築工地上的腳手架，在每一次施工中都是完全一樣的結構，不需要工人費心去"設計"，直接搭好就行。

具體來看，在總共404個需要輸出的詞元中，有124個是這樣的"腳手架詞元"，占比約30%。研究團隊乾脆把這些詞元預先填好，直接告訴AI"這些位置的內容是固定的，你不需要思考"，讓AI把全部精力集中在剩下280個真正需要預測的"價值詞元"上。這個策略不僅減少了約30%的計算量，還帶來了一個額外的好處：輸出的格式百分之百合法，永遠不會出現括號不匹配、鍵名拼錯之類的格式錯誤。

更進一步，研究團隊為四個章節分別設置了不同的學習權重和不同的"練習難度"。因為第四章的軌跡規劃直接決定汽車怎麼開，搞錯了可能出事故；而第二章的解釋文字寫得不夠優美，最多只是表達不夠流暢，不會有安全風險。所以在訓練階段，AI在軌跡和宏觀行為這兩章上犯錯的懲罰會被放大——對應的損失權重分別設置為3.0和2.0，而感知和解釋兩章的權重只有1.0和1.5。同時，軌跡章節被設置為"高難度練習模式"，在訓練時故意給它更大比例的遮蓋（遮蓋更多詞元），迫使AI在這個最關鍵的部分練得更加紮實。這兩項機制只在訓練階段生效，推理時沒有任何額外開銷。

贊助商廣告

四、兩種推理模式：一個看速度，一個看質量

正因為訓練時同時保留了兩種能力——擴散式的"整體聯想"能力和自回歸式的"逐步驗證"能力——Fast-dDrive在實際使用時可以根據需要選擇兩種不同的工作模式。

第一種叫做"章節擴散模式"。在這種模式下，AI對每一章進行多輪疊代優化，逐漸把這一章的內容從隨機亂碼還原成有意義的預測結果，然後緩存好這一章，繼續處理下一章。整個過程純粹依賴擴散式思維，不調用逐步驗證能力。這種模式的優點是思考過程具有一定的隨機性，可以產生多種不同的可能軌跡，為後續的多軌跡採樣提供了基礎。

第二種叫做"腳手架推測解碼模式"，這是Fast-dDrive的主打推理方式，也是性能最強的一種。它的工作流程分為三步，整個過程一環扣一環。第一步，對於每個處理塊，所有屬於"腳手架"的固定詞元直接無條件接受，完全跳過計算，相當於把預先知道答案的題目全部跳過。第二步，擴散頭（具有雙向視野的那部分AI）對這個塊里所有真正需要預測的詞元，在一次前向傳播中同時生成草稿答案——就像一位學生拿到試卷後快速瀏覽所有題目，然後同時在草稿紙上把所有題目的初步答案都寫下來。第三步，自回歸頭（具有嚴格因果視野的那部分AI）從左到右逐個檢查草稿答案，如果認可就接受，一旦發現不認可的地方就用自己的答案替換，並且丟棄後續所有草稿答案，同時還能額外"獎勵"接受一個額外詞元。整個流程讓每個塊只需要兩次前向傳播（一次草稿、一次驗證），無論塊的大小如何，都是兩次。實測顯示，這種模式每步能提交約4.9個詞元，每秒處理210.4個詞元，延遲僅1.9秒，相比自回歸基線快了4倍以上。

五、用"分叉路線"換取更準確的軌跡

Fast-dDrive還提出了一種低成本的精度提升手段，邏輯簡單但效果明顯。

核心思路基於一個統計學中的基本原理：如果你問100個人同一道估算題，他們的答案可能各有偏差，但這100個答案的平均值會比任何一個單獨的答案都更接近真實值，因為各人隨機犯的錯誤會相互抵消。Fast-dDrive把這個原理用在了軌跡預測上。

贊助商廣告

具體操作是這樣的：前三章（感知、解釋、宏觀行為）的內容是確定性的，每次運行結果完全一樣，因此它們對應的計算緩存也完全一樣。所以只需要計算一次前三章，然後把這份計算結果"分叉"出N份拷貝，在第四章（軌跡規劃）階段讓這N份拷貝各自獨立地加入一點隨機性，生成N條略有差異的軌跡。最後把這N條軌跡取平均，得到最終輸出。由於每次"分叉"之後只需要額外計算一個很短的第四章，而不是重新跑完整的四章，額外計算成本非常小。

研究結果顯示，當N取4時，軌跡的平均偏移誤差（ADE@5s，即5秒內軌跡與真實路徑的平均距離偏差）相比單次推理有可觀改善，而耗時僅約翻倍（因為只有短小的第四章被重複了四次）。論文中還展示了一個典型案例：四條分叉軌跡在近處幾乎重合，越到遠處（五秒末尾的位置）分歧越大，但它們的均值軌跡與真實參考路徑高度吻合——這完美地驗證了"平均消除隨機誤差"的統計原理。

六、在兩個權威測試集上的成績單

研究團隊在兩個行業內認可的公開測試集上對Fast-dDrive進行了評估。

第一個是Waymo開放數據集的端到端駕駛子集（WOD-E2E），這個數據集專門收錄了各種極端的長尾駕駛場景，比如道路施工、異常天氣、罕見交通狀況等。衡量指標主要有兩個：ADE（平均位移誤差，就是預測軌跡和真實路徑的平均距離偏差，越小越好）以及RFS（評分員反饋分數，是一種人工評估指標，分越高越接近真人駕駛員的判斷）。在測試集上，Fast-dDrive（腳手架推測解碼模式）的3秒ADE達到1.254米、5秒ADE達到2.907米，是所有對比方法中最低的兩個數字。加入N=4多軌跡平均後，這兩個數字進一步降至1.240米和2.821米。RFS方面，Fast-dDrive在擴散類方法中排名最高。與此同時，速度上同比自回歸基線快了4倍，同比全序列擴散方案快了6倍。集成到一個名為SGLang的高性能推理框架後，藉助更底層的計算圖優化，整體吞吐量達到每秒608.5個詞元，延遲僅0.67秒，相比自回歸基線整整快了11.8倍，而精度幾乎沒有損失（RFS從7.931微降至7.914）。

贊助商廣告

第二個測試集是nuScenes，這是一個以城市常規駕駛場景為主的經典數據集。評估指標是L2誤差，即在1秒、2秒、3秒三個時間點上預測位置和真實位置的歐式距離。Fast-dDrive在這三個時間點的誤差分別為0.12米、0.33米、0.50米，平均L2誤差0.32米。這個成績比自回歸帶推理的系列（如DriveVLM的0.40米、AutoVLA的0.48米）好了一大截，甚至比不帶任何自然語言推理的純規劃系統（如BEV-Planner的0.35米）還要好，相比同為擴散類的dVLM-AD（0.41米）提升了22%。

七、消融實驗：拆開來看哪部分在起作用

為了證明各個組件的必要性，研究團隊做了一系列"拆掉某個零件看會怎樣"的對照實驗。

在訓練策略的驗證上，研究團隊測試了四種組合：什麼都不加（基線）、只加章節重要性加權損失（IWL）、只加章節自適應噪聲調度（SNS）、兩者都加。結果顯示，只加IWL時，ADE@5s從2.028降到2.003，RFS從7.735升到7.855，改善明顯；只加SNS時效果稍弱，ADE@5s反而略微上升到2.050，但RFS也有一定改善達到7.807；兩者同時使用時ADE@5s為2.034，RFS達到最高的7.916，說明兩個機制在某種程度上是互補的，分別從不同角度優化了訓練效果。

在推理模式的對比上，腳手架推測解碼模式（SS）在速度和精度上均優於普通自推測解碼模式（Self-Spec），原因就是腳手架詞元的自動接受減少了約30%的驗證計算量，同時章節對齊的塊劃分讓草稿階段的上下文更完整、草稿命中率更高。章節擴散模式（SD）的速度介於兩者之間，精度略低於推測解碼模式，但其隨機性恰好為多軌跡平均採樣提供了可利用的多樣性，是一個實用的替代選項。

八、五個真實駕駛場景的實際表現

論文附錄提供了五個來自Waymo真實場景的案例演示，從中可以直觀感受Fast-dDrive的實際能力。

第一個場景是夜間無障礙左轉。路面完全空曠，沒有其他車輛、行人或特殊交通元素。AI正確識別出這是一個無干擾場景，在"宏觀行為"章節輸出加速左轉，並生成了一條平滑向左彎曲的軌跡，五秒末端的橫向偏移約10.72米，與真實參考軌跡高度吻合。

贊助商廣告

第二個場景是跟隨皮卡車直行。前方有一輛皮卡，AI正確將其標記為"關鍵目標：附近車輛=是"，判斷宏觀行為為"保持速度+跟隨車道"，並輸出一條較長的直行軌跡（五秒末端約前進80米），與真實路徑的縱向範圍一致。

第三個場景是多車道道路右轉。AI正確判斷為"保持速度+右轉"，輸出的軌跡五秒末橫向偏移達到-17米，弧度與真實參考路徑緊密貼合，從正面攝影機視角一直延伸到右側攝影機視角區域。

第四個場景是綠燈通過信號交叉口。AI正確識別出前方信號燈處於綠色狀態，將其標記為"關鍵目標：交通元素=是"，並在推理文字中明確說明"信號燈當前為綠，允許通行"，輸出直行加速軌跡，與真實路徑方向完全一致。

第五個場景也是整個演示影片中的核心案例：雨天停車標誌路口左轉。AI同時識別出停車標誌和濕滑路面兩個關鍵因素，在感知章節同時標記"交通元素=是"和"天氣狀況=是"，在宏觀行為章節輸出"減速+左轉"，推理文字中明確提到"路面濕滑，制動距離增加，需在轉彎前確保安全停車或讓行"。輸出的軌跡呈現出明顯的減速彎曲弧線，與真實參考路徑高度吻合。

歸根結底，Fast-dDrive在這個領域做了一件看起來簡單、做起來極難的事：它沒有"二選一"地在速度和精度之間妥協，而是通過把輸出結構的先驗知識編碼進模型的訓練和推理設計中，讓兩者同時變得更好。把已知不變的格式框架固定下來、讓AI專注於真正需要推理的內容，這個思路本身並不複雜，但把它系統地貫穿進訓練目標、推理算法和測試時的縮放策略，才形成了這篇論文的完整貢獻。對於自動駕駛工程師來說，這套方案提供了一條實際可走的路徑：在不需要更大模型、不需要更強晶片的前提下，通過更聰明的結構設計，把現有3B參數規模的視覺語言模型推向接近實時的車載部署邊界。對於更廣泛關注AI應用的讀者來說，這個研究也提示了一個普適原則：當AI的輸出具有已知結構時，把這個結構明確地告訴AI，往往能同時帶來效率和質量上的雙重收益，而不必在兩者之間做取捨。有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.23163查閱完整論文。

贊助商廣告

---

Q&A

Q1：Fast-dDrive和普通自動駕駛AI相比，為什麼速度能快這麼多？

A：Fast-dDrive通過三個機制實現提速。首先，它預先填好了輸出中約30%的固定格式符號，AI不需要"思考"這些內容。其次，它把整個輸出分成四個有順序的章節分別處理，每完成一章就把結果緩存起來，後續章節直接復用，不用重複計算。第三，它用擴散頭快速生成草稿，再用自回歸頭批量驗證，相比一個字一個字地生成，每步能確認約5個詞元，綜合加速超過10倍。

Q2：多軌跡平均採樣會不會讓車開得更保守或者路線變奇怪？

A：不會。多軌跡平均採樣只在第四章（軌跡規劃）階段引入隨機性，而且只是在AR驗證器中使用非零溫度採樣，前三章（感知、推理、宏觀行為）仍然是確定性的。平均之後得到的軌跡是多個合理軌跡的中心值，實驗數據顯示它比任何單條軌跡都更接近真實參考路徑，不會產生"折中出奇怪路線"的問題。

Q3：Fast-dDrive需要雷射雷達或高精地圖嗎？

A：不需要。Fast-dDrive只使用普通攝影機圖像、車輛自身的速度加速度等狀態數據，以及一條簡單的自然語言導航指令（比如"下一個路口左轉"）。在WOD-E2E測試中使用三個前向攝影機，在nuScenes測試中只用一個前向攝影機的歷史三幀，完全不依賴雷射雷達、毫米波雷達或高精度地圖。