這項由GigaAI、多倫多大學和香港中文大學多媒體實驗室聯合開展的研究發表於2026年4月,論文編號為arXiv:2604.01765v1。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。
當我們開車時,大腦會同時做兩件事:預測前方路況會如何變化,以及決定接下來該往哪個方向行駛。現在,研究團隊成功讓人工智慧也學會了這種"邊想像邊決策"的能力,開發出了一個名為DriveDreamer-Policy的系統。這個系統就像給自動駕駛汽車裝上了一個會做白日夢的大腦,能夠在駕駛過程中想像未來幾秒鐘的路況變化,並基於這些"預見"來制定最佳的行駛路線。
這項研究的突破性在於,它首次將三種不同的AI能力完美融合到了一個系統中。第一種能力是深度感知,就像給汽車裝上了立體眼鏡,能夠準確判斷周圍物體的距離和位置。第二種能力是影片想像,能夠預測接下來幾秒鐘路面上會發生什麼變化,比如其他車輛會如何移動、行人會走向何方。第三種能力是路徑規劃,能夠根據前面兩種資訊制定出最安全、最合理的行駛方案。
研究團隊在業界權威的Navsim測試平台上進行了大規模驗證,結果令人驚喜。在包含10萬個訓練樣本和1.2萬個測試樣本的嚴格評估中,DriveDreamer-Policy在各項關鍵指標上都取得了顯著突破。特別是在綜合駕駛表現評分上,該系統在Navsim v1版本上達到了89.2分,在v2版本上達到了88.7分,超越了此前所有的同類系統。更令人興奮的是,它生成的未來場景影片質量也大幅提升,影片失真度比之前最好的方法降低了32.36分。
一、從"盲目駕駛"到"預見未來"的技術革命
傳統的自動駕駛系統就像一個只會機械反應的司機,看到紅燈就停車,看到綠燈就前進,完全不會思考"如果我現在變道會發生什麼"或者"前面那個行人可能會突然衝到馬路上"。這種被動反應式的駕駛方式在複雜路況下往往顯得笨拙,甚至可能錯過最佳的行駛時機。
近年來,隨著大語言模型技術的成熟,一些研究團隊開始嘗試讓自動駕駛系統具備更強的推理能力。這類系統被稱為視覺-語言-行動模型,它們能夠理解自然語言指令,比如"請在下個路口左轉",並據此調整駕駛行為。然而,這些系統雖然變得更加智能,但仍然缺少一個關鍵能力:想像力。
與此同時,另一個技術分支專門研究如何讓AI系統學會"做夢"。這些被稱為世界模型的系統能夠根據當前的路況預測未來幾秒鐘內可能發生的情況,生成逼真的未來場景影片。但問題是,這些系統雖然會想像,卻不會根據想像的結果來調整自己的行為,就像一個只會做白日夢但不知道如何行動的人。
DriveDreamer-Policy的創新之處正是將這兩種能力結合起來,創造出了一個既會想像又會決策的AI系統。更進一步的是,研究團隊意識到,僅僅預測未來的畫面還不夠,還需要理解三維空間的幾何結構。畢竟,自動駕駛本質上是一個在三維物理世界中的導航問題,距離、深度、遮擋關係這些幾何資訊對安全駕駛至關重要。
二、三位一體的AI大腦架構
DriveDreamer-Policy的核心架構可以比作一個高效的團隊合作模式。在這個團隊中,有一個總指揮(大語言模型)負責理解環境和指令,還有三個專業助手分別負責不同的任務:深度感知專家、影片想像專家和路徑規劃專家。
總指揮的工作是處理多方面的輸入資訊。它需要同時理解來自多個攝影機的實時畫面,解讀人類給出的自然語言指令(比如"保持直行"或"準備右轉"),以及分析當前的行駛狀態。這個總指揮使用的是Qwen3-VL-2B大語言模型,具備強大的多模態理解能力。
深度感知專家的任務是構建周圍環境的三維地圖。它不僅要識別出哪裡有車輛、行人、建築物,還要準確判斷它們距離自車有多遠,是否會對行駛路線構成障礙。這個專家使用擴散變換器技術,能夠生成高精度的深度圖像,為後續的決策提供準確的幾何資訊基礎。
影片想像專家則負責預測未來場景的演變。基於當前的路況和可能的行駛動作,它能夠生成未來幾秒鐘內路面可能出現的各種情況。比如,如果現在選擇變道,其他車輛會如何反應;如果保持當前車道,前方的交通狀況會如何發展。這種預見能力讓系統能夠提前做好準備,而不是被動地對突發情況做出反應。
路徑規劃專家最後登場,它需要綜合前面兩位專家提供的資訊,制定出最優的行駛策略。它不僅要考慮幾何約束(比如不能撞到障礙物),還要考慮動態變化(比如其他車輛的預期行為),最終輸出一條既安全又高效的行駛軌跡。
這三個專家之間的資訊流動是有序的:深度資訊首先生成,為影片想像提供幾何基礎;影片想像的結果再傳遞給路徑規劃專家,為最終決策提供時間維度的資訊。這種分層遞進的設計確保了資訊的充分利用和決策的合理性。
三、讓AI學會"立體思考"的深度感知技術
在現實世界的駕駛過程中,距離判斷是生死攸關的技能。一個有經驗的司機能夠憑直覺判斷出前車距離自己多少米,旁邊的行人是否會突然衝到馬路上,這些判斷都基於對三維空間的準確感知。DriveDreamer-Policy的深度感知模塊就是要讓AI也具備這種"立體視覺"。
傳統的電腦視覺系統往往只關注圖像的二維資訊,就像看一張平面照片一樣,很難準確判斷物體的真實距離。而DriveDreamer-Policy採用了一種全新的方法,它不是簡單地從圖像中計算深度,而是用生成式AI的方法來"想像"深度資訊。
這個過程就像一個藝術家在畫立體畫。藝術家不僅要觀察物體的表面顏色和紋理,還要理解物體在三維空間中的位置關係,然後用畫筆將這種立體感表現在平面上。DriveDreamer-Policy的深度生成器也是類似的工作原理,它接收來自多個攝影機的圖像資訊,然後結合大語言模型提供的場景理解,生成出詳細的深度圖。
這種生成式的方法有一個重要優勢:它能夠處理單目相機(只有一個攝影機)難以解決的模糊情況。比如,當看到一個人形輪廓時,傳統方法很難確定這是一個真人還是一個廣告牌,因為僅從二維圖像很難判斷。但生成式方法能夠結合上下文資訊,比如這個人形輪廓是否在人行道上、周圍是否有其他行人等,從而做出更準確的判斷。
深度資訊不僅用於避免碰撞,還為後續的影片想像提供了重要支撐。當系統要預測未來場景時,準確的深度資訊能夠幫助它理解哪些物體會被其他物體遮擋,哪些區域是空曠的可行駛空間。這種幾何約束確保了想像出來的未來場景在物理上是合理的,而不是天馬行空的幻想。
四、預見未來的影片想像技術
如果說深度感知讓AI具備了"立體視覺",那麼影片想像技術就是讓AI擁有了"時間眼鏡",能夠看到還未發生的事情。這種能力對自動駕駛來說意義重大,因為很多交通事故都是因為司機沒有預見到即將發生的危險情況。
DriveDreamer-Policy的影片想像模塊採用了先進的文本-圖像-影片擴散變換器技術。這個技術的工作原理可以比作一個經驗豐富的交通分析師。當這個分析師看到當前的路況快照時,他能夠基於對交通規律的深度理解,推演出接下來幾秒鐘內各種交通參與者可能的行為模式。
這個想像過程並不是隨意的猜測,而是基於大量真實交通數據訓練出來的規律認知。系統學習了數以萬計的真實駕駛場景,了解了各種交通情況下的典型演變模式。比如,當綠燈亮起時,行人通常會如何穿過斑馬線;當有車輛打轉向燈時,其他車輛會如何反應;在擁堵路段,車流會以什麼樣的模式緩慢前進。
影片想像的一個關鍵創新在於它充分利用了深度資訊的指導。傳統的影片生成技術往往只關注表面的視覺效果,容易產生一些看起來漂亮但在物理上不合理的結果。比如,可能會生成一輛車"穿牆而過"的場景,或者讓一個行人"飄浮"在半空中。
而DriveDreamer-Policy通過將深度資訊作為幾何約束,確保生成的未來影片在三維空間上是合理的。這就像給想像力加上了物理學的約束,讓AI的"白日夢"更加貼近現實。當系統預測一輛車會向左變道時,它會確保這輛車遵循合理的運動軌跡,不會突然瞬移到另一個車道。
這種基於幾何約束的影片想像不僅提高了預測的準確性,也為最終的路徑規劃提供了更可靠的參考資訊。路徑規劃專家可以基於這些逼真的未來場景預測,評估不同駕駛策略的安全性和效率,從而做出更明智的決策。
五、智慧決策的路徑規劃技術
在獲得了準確的深度資訊和可靠的未來場景預測後,DriveDreamer-Policy需要將這些資訊轉化為具體的駕駛行為。這就是路徑規劃專家的職責,它需要在複雜的約束條件下找到最優的行駛策略。
路徑規劃的過程可以比作一個象棋高手在思考下一步棋。高手不僅要考慮當前棋盤的局勢,還要預見對手可能的應對策略,然後選擇一個既能達成自己目標又能有效應對各種變化的最佳走法。同樣,DriveDreamer-Policy的路徑規劃專家需要綜合考慮當前路況、預測的未來變化、安全約束、效率要求等多個因素。
這個專家採用了擴散變換器技術來生成行駛軌跡。這種方法的優勢在於它能夠處理路徑規劃中的不確定性。在真實的交通環境中,很少有絕對標準的"正確答案",往往存在多種可行的駕駛策略。傳統的規則驅動方法可能會過於僵化,而DriveDreamer-Policy能夠生成多樣化的候選路徑,然後選擇其中最符合當前情況的方案。
路徑規劃專家的另一個重要特點是它能夠充分利用前面兩個專家提供的資訊。來自深度感知專家的幾何資訊幫助它理解空間約束,比如哪些區域是不可通行的,哪些地方存在碰撞風險。來自影片想像專家的時間資訊則幫助它理解動態約束,比如其他車輛的預期行為,未來幾秒內交通狀況的可能變化。
為了確保生成的軌跡在數學上是連續和平滑的,系統採用了一種特殊的軌跡表示方法。每個軌跡點不僅包含位置坐標,還包含方向資訊,並且用連續的數學函數來表示轉向角度,避免了角度突變可能帶來的不穩定性。這種設計讓生成的行駛軌跡更加符合真實車輛的物理特性。
六、協調統一的訓練策略
要讓這三個AI專家能夠默契配合,就需要一套精心設計的訓練策略。DriveDreamer-Policy採用了端到端的聯合訓練方法,讓三個專家在同一個學習過程中逐步磨合,最終形成高效的團隊協作。
這個訓練過程可以比作培養一支管弦樂隊。每個樂手都需要掌握自己的演奏技巧,但更重要的是要學會與其他樂手協調配合,共同演奏出和諧的音樂。在DriveDreamer-Policy的訓練中,每個專家模塊都有自己的專業任務,但它們需要在統一的目標下協同優化。
訓練使用的數據來自Navsim基準測試集,包含了大量真實世界的駕駛場景。每個訓練樣本都包含多視角的圖像序列、對應的深度資訊、未來場景的演變以及人類專家駕駛員的行為軌跡。這些豐富的多模態數據為系統提供了全面的學習素材。
訓練目標函數巧妙地平衡了三個不同任務的重要性。深度預測任務的權重設置較低,因為深度資訊主要起到輔助作用,不需要過度擬合。影片生成和軌跡規劃任務的權重相等,體現了它們在整體系統中的同等重要性。這種權重設計確保了各個模塊能夠均衡發展,避免某個任務過度主導整個訓練過程。
特別值得注意的是,系統的深度標籤來自最先進的深度基礎模型Depth Anything 3,而不是傳統的雷射雷達或立體視覺方法。這種選擇不僅降低了數據獲取的成本,還保證了深度資訊的一致性和準確性。
訓練過程採用了單階段策略,所有模塊同時進行優化。這種方法雖然在計算上更加複雜,但能夠確保各個模塊之間的緊密協調。經過10萬個訓練步驟的優化,系統在8張NVIDIA H20 GPU上完成了完整的訓練過程。
七、突破性的實驗驗證結果
為了全面驗證DriveDreamer-Policy的性能,研究團隊在業界權威的Navsim基準測試平台上進行了詳盡的對比實驗。Navsim是基於真實世界駕駛日誌構建的評估系統,包含了複雜多樣的交通場景,被廣泛認為是自動駕駛系統性能評估的金標準。
在規劃性能的對比中,DriveDreamer-Policy展現出了全面的優勢。在Navsim v1版本的測試中,系統達到了89.2分的綜合駕駛評分,超越了所有參與對比的基準方法。這個分數不僅在世界模型驅動的方法中排名第一,甚至超過了許多專門設計的端到端駕駛系統。
更詳細地分析各項子指標,DriveDreamer-Policy在關鍵的安全性指標上表現尤為突出。在道路區域遵守性方面達到了97.1分,意味著系統幾乎總能保持在合法的行駛區域內。在避免碰撞方面得到了98.4分,顯示出了極高的安全性。在行駛效率方面也達到了83.5分,說明系統不僅安全,還能保持合理的行駛速度。
在更加嚴格的Navsim v2版本測試中,系統同樣保持了領先地位,達到了88.7分的擴展綜合評分。這個版本的測試增加了方向遵循、交通信號燈遵守、車道保持等更加細緻的評估維度,DriveDreamer-Policy在這些方面的得分分別達到了99.5、99.9、97.6分,展現出了全面而均衡的駕駛能力。
在世界生成質量的評估中,系統同樣取得了顯著突破。與此前最好的方法PWM相比,DriveDreamer-Policy在影片生成的關鍵指標FVD(Fréchet影片距離)上實現了32.36分的大幅改進,從85.95分降低到53.59分。這意味著生成的未來場景影片與真實情況更加接近,為規劃決策提供了更可靠的參考。
在深度估計精度方面,系統也超越了基礎模型PPD的表現。絕對相對誤差從18.5%降低到8.1%,準確率指標在各個閾值下都有顯著提升。這種改進主要得益於大語言模型提供的全局語義資訊,幫助深度生成器更好地理解場景結構。
八、深入的消融實驗分析
為了深入理解系統各個組件的貢獻,研究團隊進行了一系列精心設計的消融實驗。這些實驗就像拆解一台精密機器來研究每個零件的作用,幫助我們理解為什麼DriveDreamer-Policy能夠取得如此出色的性能。
首先,研究團隊驗證了世界建模對規劃性能的影響。他們對比了四種不同的配置:純動作規劃(不使用任何世界建模)、深度加動作、影片加動作,以及完整的深度加影片加動作。實驗結果清晰地展現了世界建模的價值。純動作方法只能達到88.0分,而加入深度資訊後提升到88.5分,加入影片資訊後進一步提升到88.9分,完整系統則達到了89.2分的最佳性能。
這個結果告訴我們一個重要的道理:在複雜的駕駛任務中,僅僅依靠當前觀察來做決策是不夠的,需要對環境有更深層的理解和前瞻性的預測。深度資訊幫助系統理解空間結構,影片預測幫助系統理解時間演變,兩者結合才能實現最優的駕駛性能。
第二個重要發現是深度學習對影片生成的促進作用。當系統同時學習深度和影片生成任務時,影片質量得到了顯著改善。FVD分數從65.82分降低到53.59分,PSNR從19.89提升到21.05。這說明幾何資訊確實為影片想像提供了有效的約束和指導,讓生成的未來場景更加符合物理規律。
查詢令牌數量的消融實驗揭示了另一個有趣的現象。當將查詢令牌從較少的配置(32個深度查詢+32個影片查詢+4個動作查詢)增加到標準配置(64個深度查詢+64個影片查詢+8個動作查詢)時,所有任務的性能都有所提升。這表明更多的查詢令牌提供了更大的資訊存儲容量,能夠保留更豐富的上下文資訊用於生成和規劃。
特別值得關注的是,研究團隊還通過可視化分析展示了不同組件配置對實際駕駛行為的影響。在一些關鍵場景中,比如需要避免潛在碰撞風險的情況下,包含世界建模的版本能夠提前採取更安全的行駛策略,保持更大的安全距離。在需要糾正初始錯誤決策的情況下,世界建模幫助系統更早地發現問題並進行調整。
九、技術創新的深層意義
DriveDreamer-Policy的成功不僅僅是一個技術指標的突破,更代表了自動駕駛技術發展的一個重要方向轉變。傳統的自動駕駛系統往往將感知、預測和規劃作為相互獨立的模塊,每個模塊都有自己的優化目標和評估標準。這種模塊化設計雖然便於開發和調試,但可能導致整體性能的次優化。
DriveDreamer-Policy提出的統一建模方法打破了這種傳統界限。通過讓同一個AI系統同時學習幾何理解、時間預測和行為規劃,它實現了更深層次的資訊整合和協調優化。這種方法的核心哲學是:真正智能的駕駛不應該是分離的感知-決策過程,而應該是統一的理解-想像-行動循環。
幾何約束的引入是另一個重要創新點。在之前的世界模型研究中,研究者們往往專注於生成視覺上逼真的圖像或影片,但可能忽略了物理世界的幾何一致性。DriveDreamer-Policy通過顯式建模深度資訊,確保了生成的未來場景在三維空間上是合理的。這不僅提高了預測的準確性,也為規划算法提供了更可靠的幾何約束。
從計算架構的角度來看,DriveDreamer-Policy展示了大語言模型在多模態任務中的強大潛力。通過使用LLM作為統一的特徵提取和推理引擎,系統能夠有效地整合來自不同傳感器的資訊,理解自然語言指令,並生成結構化的輸出。這種設計為未來更加智能和靈活的自動駕駛系統提供了重要啟示。
查詢機制的設計也體現了深刻的技術洞察。通過使用固定大小的查詢令牌作為不同生成專家之間的接口,系統實現了模塊化和可擴展性的平衡。這種設計允許系統根據具體需求靈活地激活不同的功能組合,比如在計算資源受限的情況下只使用規劃功能,或者在需要詳細仿真的情況下啟用完整的世界建模能力。
十、面向未來的技術展望
DriveDreamer-Policy的成功為自動駕駛技術的未來發展開闢了新的可能性。當前的系統雖然已經在標準測試集上取得了優異的性能,但要真正實現大規模部署,還需要在幾個關鍵方向上繼續深入研究。
首先是計算效率的進一步優化。雖然系統採用了模塊化的設計,允許根據需要選擇性地激活不同功能,但完整系統的計算需求仍然相當可觀。未來的研究可能需要探索更高效的模型架構,比如採用更輕量級的生成模型,或者開發專門的硬體加速方案。
其次是泛化能力的增強。當前系統主要在Navsim數據集上進行訓練和測試,雖然該數據集包含了豐富的駕駛場景,但與真實世界的複雜性相比仍有差距。未來的工作需要驗證系統在不同地理環境、天氣條件、交通規則下的表現,並開發相應的適應機制。
安全性保障是另一個關鍵挑戰。雖然實驗結果顯示系統具有良好的安全性能,但生成式AI的不確定性特徵意味著需要更加嚴格的安全驗證機制。這可能包括對抗性測試、邊界情況分析、失效模式研究等多個方面。
從技術發展的角度來看,DriveDreamer-Policy代表的統一建模方法可能會影響更廣泛的AI應用領域。將感知、預測和決策統一在一個端到端系統中的思路,同樣適用於機器人導航、無人機控制、遊戲AI等其他需要在動態環境中進行智能決策的場景。
長期來看,這種能夠"既看見現在又預見未來"的AI系統可能會成為通用人工智慧發展的重要組成部分。當AI系統能夠準確理解當前環境、可靠預測未來變化、並基於這些資訊做出明智決策時,它們就具備了在複雜現實世界中自主行動的基本能力。
說到底,DriveDreamer-Policy不僅僅是一個改進的自動駕駛算法,更是向我們展示了AI系統如何才能真正理解和適應這個複雜多變的物理世界。通過將幾何感知、時間想像和行為規劃有機結合,它為我們描繪了一幅更加智能、更加安全的未來交通圖景。隨著這類技術的不斷成熟和完善,我們有理由期待一個車禍更少、出行更便捷、交通更高效的美好未來。而這一切的起點,正是讓機器學會像人類一樣思考:不僅要看見當下,更要預見未來,然後基於這種預見做出最明智的選擇。
Q&A
Q1:DriveDreamer-Policy與傳統自動駕駛系統有什麼區別?
A:傳統自動駕駛系統只能被動地對當前路況做出反應,就像只會機械操作的司機。而DriveDreamer-Policy能夠主動預測未來幾秒鐘的路況變化,並基於這些"預見"制定最佳行駛策略,就像有經驗的司機會提前判斷交通狀況一樣。它首次將深度感知、影片想像和路徑規劃三種能力統一在一個系統中。
Q2:DriveDreamer-Policy的深度感知技術是如何工作的?
A:DriveDreamer-Policy的深度感知就像給汽車裝上了立體眼鏡,能夠準確判斷周圍物體的距離和位置。它不是簡單地從圖像計算深度,而是用生成式AI來"想像"深度資訊,結合大語言模型的場景理解能力,即使在單個攝影機的情況下也能準確判斷物體的真實距離和空間關係。
Q3:這個系統在實際測試中表現如何?
A:在權威的Navsim測試平台上,DriveDreamer-Policy取得了突破性成績。綜合駕駛評分在v1版本達到89.2分,v2版本達到88.7分,超越了所有同類方法。特別是在安全性方面表現優異,避免碰撞得分98.4分,道路區域遵守性97.1分。同時生成的未來場景影片質量也大幅提升,比之前最好方法的失真度降低了32.36分。






