這兩天上海正在進行舉辦車展,據說一共有193場發布會。不過這次車展因為一次大家都知道的事故,氛圍有些特殊。一個最主要的變化就是,原來車展上隨處可見的智能駕駛四個字變成了輔助駕駛。
其實這就是物理AI和數字AI(也可以具體稱作內容AI、編碼AI)的區別。對於數字AI而言,比如文本、圖形、影片生成,都發生在數字空間,它可能有風險,但是不會在短時間內對人的生命安全造成損失,但是物理AI就不同。尤其是汽車,它可能是人類在日常生活中所能接觸到的動能最大的智能產品,和每一個普通人的生活都息息相關。但是另一方面,我們又很清楚地意識到,汽車的智能化浪潮(或者說任何事物的智能化)只會暫停,但是不會停止。所以在這個節點,我想發一下關於和智能駕駛相關的內容是有借鑑意義的。

內容的核心主體來自TWIML AI 播客主持人Sam Charrington和Waymo研究副總裁Dragomir Anguelov(簡稱Drago)的對話。他們就基礎模型如何重塑自動駕駛做了很細節的技術探討。說明一下,他們在2021年2月對談過一次,這是時隔四年的再次交流。
至於我們為什麼選擇Waymo,則是因為它的代表性,這裡我簡單介紹一下。Waymo是一家專注於自動駕駛技術研發的公司,隸屬於Alphabet(Google母公司),起源於2009年Google啟動的自動駕駛汽車項目,2016年獨立成為Alphabet旗下子公司,2020年開始商業化運營。

說到這兒,我們必須說Google谷歌還是厲害,無論是大語言模型,還是智能駕駛這樣的物理AI,這家公司都是頭部企業。怪不得當年山姆·阿特曼和馬斯克兩個驕傲的人會合作創立OpenAI,都是因谷歌在AI領域過於強大所致。
這家公司也創造了智能駕駛領域的幾個首次:
1、Waymo是全球最早啟動自動駕駛汽車研發的企業之一,擁有近15年的技術積累,核心自動駕駛技術實現完全自主研發。
2、Waymo已實現SAE定義的L4級自動駕駛,能夠在特定區域實現無人駕駛計程車服務,無需(或者說只是抽查性的)安全員實時監控。比較而言,特斯拉目前的「全自動駕駛」(FSD)系統仍處於L2級別,意味著駕駛員必須保持警覺,隨時準備接管車輛,尚未達到真正的無人駕駛水平。
3、2018年,Waymo在美國亞利桑那州鳳凰城啟動全球首個公共道路上的無人駕駛計程車服務。2019年,Waymo One成為全球首個在無安全駕駛員監控下運營的無人駕駛計程車服務。

而受訪嘉賓Drago也是業內專家,他曾在Google工作8年,期間主要從事3D視覺和姿態估計,參與開發了Google Street View的關鍵技術,並領導了一個電腦視覺團隊,開發了用於Google Photos圖像標註的系統。他所在團隊發明了著名的Inception神經網路架構和SSD檢測器,贏得了2014年ImageNet圖像分類和檢測挑戰賽。
最後說明一下,我沒有任何在這個時間點試圖鼓吹和詆毀這個行業的想法,只是想藉此提供一些知識和思考。
一、商業化里程碑:從實驗到大規模服務
距離上次訪談的四年間,Waymo取得了顯著進步。Drago透露,目前Waymo已在四個主要市場(舊金山、鳳凰城、洛杉磯和奧斯汀)提供全自動駕駛服務,每周完成超過20萬次出行,且每周自動駕駛里程超過100萬英里。
"我們的服務區域覆蓋範圍相當可觀,"Drago解釋道,"鳳凰城是我們服務時間最長的區域,也是西方世界最大的自動駕駛服務區域,超過300平方英里。舊金山覆蓋約55平方英里,包括整個城市和部分戴利城。洛杉磯約90平方英里,而在奧斯汀這個相對較新的市場,我們覆蓋約37平方英里。"
在這些城市中,用戶可以通過Waymo應用程序直接叫車。在舊金山、鳳凰城和洛杉磯,用戶可以直接通過Waymo應用叫車,而在奧斯汀,則是通過與Uber的合作,用戶需要使用Uber應用,系統會根據情況分配Waymo車輛。
在安全性方面,Waymo發布的數據同樣令人印象深刻。根據最近更新的安全儀錶板(涵蓋首批5千萬自動駕駛里程),Waymo在導致安全氣囊展開的碰撞事故上比人類駕駛減少了83%,在造成人身傷害的事故上減少了81%,在需要警方報告的輕微事故上減少了64%。第三方保險公司Swiss Ray的獨立研究也證實,在可比較的駕駛量下,Waymo的財產損失和人身傷害索賠比人類駕駛減少了約80%。
關於遠程監控,Drago澄清道,雖然技術上操作員可以對車輛進行檢查,但這種情況非常罕見。"考慮到我們的運營規模,不可能有人持續監控每一輛車。這根本不是一個好的產品模式,你不可能只是把駕駛員換成坐在工作站後面的人。"他強調,車輛並非遠程操作,最多在極少數情況下,在車輛已經停止的情況下,操作員可能會確認車輛想要採取的某些行動。
二、Drago的技術旅程:從圖像識別到自動駕駛研究
作為資深的機器學習研究者,Drago的專業旅程相當豐富。他在Waymo已工作近7年,自2018年夏季起領導Waymo研究團隊,專注於通過機器學習和人工智慧推動自動駕駛系統的前沿發展。

"我已經從事機器學習研究超過20年了,"Drago回顧道,"在加入Waymo之前,我曾在Alphabet(谷歌母公司)工作8年,主攻圖像理解和深度神經網路。我們發表了一些早期的圖像分類和目標檢測架構,並在2014年贏得了ImageNet挑戰賽。"
此外,Drago還在谷歌Street View項目上工作過,負責3D姿態估計和3D視覺技術。"當Street View車輛駕駛時,我們會在3D空間中重建周圍世界,並對不同平台的軌跡進行對齊。我們不僅有汽車,還有雪地摩托、三輪車、自行車,有時甚至會把三輪車放在船上。這需要精確的位姿估計,以便在瀏覽這些照片和圖像時,3D場景看起來合理自然。"
2015年左右,Drago進入自動駕駛領域,最初在另一家知名自動駕駛公司Zoox擔任3D感知負責人,工作了兩年半。隨後,他有機會組建並領導Waymo研究團隊,至今已有近7年的時間。
三、基礎模型與自動駕駛的融合:Waymo的技術演進
自上次採訪以來,人工智慧領域經歷了顯著的技術進步,特別是基礎模型、大語言模型(LLMs)、視覺語言模型(VLMs)等技術的崛起。Drago深入探討了Waymo如何擁抱這些技術變革。
"我們一直關注機器學習和AI的最新技術,並嘗試將這些進步適應到我們的領域中,通常需要一些創造性的調整,"Drago解釋道,"在我的經驗中,這個領域大約每兩年就會出現一次重大技術飛躍,而過去兩年出現的變革可能比以往更大,特別是多模態大語言模型和生成式AI技術的發展,它們能夠處理圖像、影片理解、音頻處理等多種媒體形式。"
Waymo敏銳地意識到這些技術進步的潛力,並積極探索如何將它們應用於自動駕駛系統。Drago提到:"我們已經開始探索視覺語言模型、用於生成輸出的擴散預測(包括影片和駕駛場景生成)以及3D重建技術的應用,如高斯濺射(Gaussian splatting)等。"
所謂視覺語言模型,是指能夠理解圖像內容並生成文本描述或回答關於圖像問題的AI模型,比如谷歌的Gemini。擴散預測是一種生成模型技術,可以創建新的圖像、影片或駕駛場景。高斯濺射則是一種新型3D場景表示技術,相比傳統方法能更高效地重建和渲染複雜的3D環境。
事實上,Waymo在採用這些技術方面走在前列。"我們的模型已經擴展了一段時間,Transformer架構也已應用多年。如果查看我們的研究發表,早在2021年、2022年,甚至更早,我們就已在感知應用中使用Transformer。現在的變化主要在於我們對模型可擴展程度的認識有了質的提升。"
四、自動駕駛的特殊挑戰:超越標準視覺語言模型
儘管視覺語言模型在多個領域取得了令人矚目的成果,但Drago強調,自動駕駛領域有其獨特的挑戰,需要對這些技術進行深度改造。
"為什麼我們的領域與標準視覺語言模型不同?"Drago提出了關鍵問題。他解釋道,Waymo曾嘗試將最先進的多模態大語言模型(如Gemini)適配用於駕駛任務,並在去年發表的名為"EMA"的論文中取得了相當成功的結果。(論文地址:arxiv.org/abs/2410.23262)

"Gemini帶來的主要好處是世界知識。它在網際網路上預訓練,作為一個大型模型,已經理解了許多概念,不需要我們用自己的標籤或數據直接教它。然後,我們用自己的任務和數據對其進行微調,使其能夠在擁有這些預訓練知識的基礎上完成我們特定的任務。"
簡單來說,傳統方法可能需要人工標註大量數據來教會AI識別路上的各種物體,而使用像Gemini這樣的預訓練模型,它已經能識別大多數常見物體,Waymo只需教它如何在駕駛場景中應用這些知識。
然而,自動駕駛對AI系統提出了獨特要求:
空間感知:"我們的系統依賴於對周圍環境的強大空間感知能力。這對安全至關重要,但需要更深入地理解3D世界。我們有額外的傳感器,如雷射雷達(LiDAR)和雷達,它們在提供3D空間感知方面非常出色,而標準Gemini模型不具備處理這類傳感器數據的能力。"
長時記憶:"在自動駕駛中,你需要基於幾秒鐘或更長時間的歷史進行推理,這可能涉及大量幀。你需要以某種方式整合、維護和構建這種記憶,這對標準視覺語言模型來說是個挑戰。"
防止幻覺:"模型可以預測事物,但在它未見過的領域,有時可能會出錯或'幻覺'(即產生不準確的預測)。在我們的系統設計中,我們需要考慮如何緩解'脫離數據流形'和幻覺等問題,這對自動駕駛的安全性極其重要。"
簡而言之,雖然基礎模型提供了豐富的世界知識和強大的架構,但需要進一步開發才能滿足自動駕駛的特殊需求。
五、Waymo Foundation Model:打造自動駕駛專屬基礎模型
基於對基礎模型潛力與局限的深刻理解,Waymo正在開發自己的專用基礎模型。Drago闡述了這一雄心勃勃的項目的願景。
"我們正在構建我們稱之為'Waymo Foundation Model'的東西,它不僅僅是對標準VLM的適配,我們希望引入我之前提到的所有能力,在數據中心構建一個大型模型,看看我們能在多大程度上理解我們看到和收集的所有數據。"
這個模型的構建方法與普通的視覺語言模型不同。它需要整合來自多種傳感器的數據(如攝影機、雷射雷達和雷達),具備長時記憶能力,並且能夠防止產生不安全的"幻覺"。
Waymo的方法是首先在數據中心構建這樣一個大規模模型,不受實時處理和車載計算資源的限制,然後將其知識"蒸餾"到能夠在車輛上運行的更小模型中。
"這個模型隨後可以作為車內模型的'老師'。你可以將其蒸餾(distill)下來,當然,你仍然需要通過周密的設計確保車載系統滿足所有安全約束和延遲要求等。但這個基礎模型成為知識的來源,你可以隨時向它詢問,用於挖掘數據和理解數據。"
這種方法對於自動駕駛系統的擴展至關重要:"現實是,我們在現有市場已經有良好的泛化能力和覆蓋率,但新市場,特別是與現有市場差異較大或傳感器組合不同的市場,會挑戰你的能力。如果你擁有這種基礎模型能力,你可以比今天的過程更快地適應新市場。"
傳統上,進入新市場需要探索、收集數據、標註數據、理解差異並確保安全。雖然基礎模型不會完全消除這一過程,但可以顯著加速它,使Waymo能夠更快地擴展到更多城市。
六、預測未來:傳感器值預測與駕駛決策的新方法
在討論自動駕駛系統的訓練方法時,Drago提出了一個創新概念:"預測未來傳感器值"。由於這個概念相對抽象,讓我們更深入地解析它的含義和在自動駕駛中的應用。
1、什麼是"預測未來傳感器值"?
簡單來說,"預測未來傳感器值"是指AI系統嘗試預測在未來幾秒或更長時間內,車輛的各種傳感器(如攝影機、雷射雷達、雷達)將會捕捉到的數據。這不同於僅預測車輛應該如何行駛,而是預測整個環境將如何演變,包括其他車輛的移動、行人的行為,甚至是光線、陰影和天氣條件在傳感器中的表現。
Drago解釋道:"在我們的EMA論文中,視覺語言模型可以預測你面前的道路圖、看到的3D邊界框,但最有趣的功能可能是預測你可能遵循的駕駛軌跡。"
這裡的"駕駛軌跡"是指車輛在未來幾秒內可能採取的行駛路徑,包括速度、方向和位置的變化。系統會生成多個可能的軌跡,其中起始部分可以直接轉化為實際的控制命令(如轉向、加速或制動),而後續部分則更具推測性,顯示車輛可能的長期行為。
2、傳統方法與預測傳感器值的區別
傳統的自動駕駛系統通常採用以下步驟:
感知:識別和分類周圍的物體(車輛、行人、交通標誌等)
預測:預測這些物體將如何移動
規劃:基於這些預測規劃車輛的路徑
控制:執行規劃的路徑
而"預測未來傳感器值"的方法試圖更直接地學習駕駛行為。Drago解釋了訓練這種模型的方式:"你會觀察我們的駕駛員或其他人如何駕駛,記錄他們在未來做了什麼,然後教模型預測這些'駕駛令牌'在未來幾步中的情況。"
"駕駛令牌"(driving tokens)可以理解為駕駛行為的數字化表示,包括位置、速度、加速度和轉向角等資訊。通過將這些連續的物理量轉換為離散的"令牌",模型可以像預測文本中的下一個單詞一樣預測下一個駕駛動作。
2、預測傳感器值的不同級別
Drago詳細說明了預測的不同級別,從簡單到複雜:
預測自己的駕駛軌跡:最基本的級別,模型學習在給定場景下應該如何駕駛。"這是一個信號,是關於你應該如何駕駛的最切題的信號。你觀察人們如何駕駛,看到他們的令牌,並學習預測它們。"
預測周圍對象的行為:"不僅預測你自己如何駕駛,我們還教模型預測我們周圍其他人的運動令牌。我們有一個名為'MotionLM'的模型,它展示了如何做到這一點。你預測整個群體的聯合行為。這是一個更豐富的信號——你教模型從每個例子中學習更多東西。"
這意味著系統不僅理解自己的行為,還理解其他道路使用者的行為和反應,從而能夠更好地預測交通場景的演變。
預測整個傳感器數據流:最複雜的級別,模型預測所有傳感器在未來的完整讀數。
Drago詳細解釋道:"這是非常高頻寬、詳細的變體。環境不僅因為你的駕駛路徑而變化,還因為其他人對你的反應並改變了他們相對於你的行為。這也反映在傳感器中。此外,你需要考慮一切如何改變外觀,當你繞過物體時它們從另一側看起來是什麼樣子,反射如何工作,特定光強度如何與RGB像素相關,因為你現在是在預測環境的未來,整個環境的全部細節。"
簡單來說,這相當於模型在"想像"未來幾秒鐘內攝影機、雷射雷達和雷達將看到的一切,包括所有物體的位置、外觀、光影變化等。
3、優勢與挑戰
這種方法的主要優勢是它提供了"最高頻寬的預測"——它反映了環境的完整資訊。如果模型能夠準確預測所有傳感器數據,那麼它實際上已經深刻理解了駕駛環境的動態性質。
然而,Drago也指出了一個關鍵問題:"你是否過度了?人類在駕駛時不會思考樹從另一側看起來是什麼樣子,或者樹枝如何相互遮擋。我不必考慮行人身上的陰影如何演變。雖然模型可以捕獲大量知識,但並非所有知識都與駕駛相關。"
這指出了一個重要的權衡:預測傳感器數據是非常詳細的,但可能包含許多對安全駕駛決策不必要的資訊。正如Drago所說:"預測人們在未來幾步的行為是你能做的最少也是最相關的事情。然後隨著你擴展,它變得越來越不相關。例如,你是否需要模擬天空中雲的移動?這可能與一小時後是否會下雨有關,但我不確定它會對你的駕駛有所幫助。"
因此,在設計預測系統時,需要在預測的完整性和相關性之間取得平衡,確保系統關注真正對駕駛決策重要的資訊,而不是浪費計算資源在無關細節上。
七、架構之辯:端到端學習與模組化系統的權衡
在自動駕駛研發社區中,關於系統架構的討論始終是一個熱點話題,尤其是端到端學習與模組化系統的比較。所謂端到端學習,是指從原始輸入(如攝影機圖像)直接學習到最終輸出(如轉向控制),而不經過明確定義的中間表示;而模組化系統則將任務分解為多個子任務(如感知、規劃、控制),每個子任務由專門的模組處理。
Drago提供了一個務實的視角:"我們站在實用主義一邊。我們會採用效果最好的方法。端到端通常是一個被過度使用的概念。讓我們明確一下端到端究竟意味著什麼。"
他解釋了端到端學習的不同定義:
"強定義是指,你從控制到傳感器之間傳遞梯度,通過整個系統。在這個過程中,你可能會學習到你自己無法檢查或沒有語義意義的特徵,這些特徵是從訓練過程中湧現出來的,可能有助於駕駛。"
這裡的"傳遞梯度"是指在神經網路訓練過程中,錯誤信號如何從輸出層一直傳回到輸入層,以調整網路的權重。在端到端系統中,這種錯誤傳遞貫穿整個系統,而不是分別訓練各個組件。
"但端到端通常是一種訓練策略,與堆棧中是否有模組是正交的(即互不影響的)。只要模組連接得當,能夠在它們之間傳遞梯度,你仍然可以有模組並進行端到端訓練。"
關於實際經驗,Drago分享道:"我們隨著時間的推移所學到的是,你希望有儘可能少的大型組件。這簡化了開發,允許你更多地擴展這些組件並對它們進行優化,而不是有一堆各自做不同事情、使用不同數據生成的小型定製模組。"
然而,關鍵問題在於:組件應該有多少?是否應該只有一個從傳感器到控制的組件?Drago指出了純端到端方法的挑戰:
可測試性:"如何模擬和證明這個系統不會產生幻覺?你需要一個始終從傳感器到控制的模擬器。在我們的領域,有很多傳感器,它們不容易模擬。想像一下,在模擬器中每天駕駛超過100萬英里,現在必須模擬所有可能在這些傳感器中看到的東西。這項技術一直在發展,但這是個挑戰。"
修改難度:"假設你訓練了一個巨大的模型,現在想改變它。你能做的唯一事情就是改變數據來重新訓練模型。你修復了一個問題,但可能破壞了其他東西。如果你只有一個輸入輸出的模型,很難快速修復某些東西。"
基於這些考慮,Drago總結道:"我認為在我們的領域內有一個合理的共識,即你需要少數幾個大型組件,但關於它是否應該是一個組件,尚無共識。很多考慮來自可測試性。在我們的情況下,當我們進行完全自動駕駛時,這是首要考慮因素。你設計堆棧的方式要確保你能夠測試它。"
這種平衡尤其重要,因為Waymo每周運營數十萬次行程和數百萬英里的駕駛,對安全性和可靠性的要求極高。
八、驗證與模擬:確保自動駕駛系統安全可靠
在自動駕駛開發中,驗證系統是否安全可靠是一項至關重要的任務。Drago詳細討論了Waymo的驗證方法和面臨的挑戰。
"在我們的GTC演講中,我也提到過有兩個主要問題。一個是構建駕駛員,另一個是驗證它並確保你有信心模型或駕駛員在絕大多數情況下表現良好。"
這裡的"構建駕駛員"指開發自動駕駛系統本身,而"驗證"則是確保這個系統在各種場景下都能安全可靠地運行。
關於驗證的複雜性,Drago解釋道:"車輛駕駛的環境包含各種多樣性——不同的季節、不同的運營領域、各種人類行為(有些很少見)。所有這些最好在模擬器中進行測試,這是大規模測試的好工具。但問題是,如何構建這個模擬器?"
傳統上,模擬環境主要依賴電腦圖形學方法:"大約10年前當我開始時,模擬的最先進技術是電腦圖形學方法。你收集大量資產——房屋、樹木等,然後當你繪製場景時,你了解這些資產在哪裡、它們的外觀,然後用這些資產替換實景。"
然而,這種方法存在"模擬到現實"(sim-to-real)的問題,即模型對圖形版本的反應可能與對現實世界版本的反應不同。"這是因為電腦圖形學是一種近似,你需要正確設置大量參數——太陽應該是什麼樣子、環境的擴散方面是什麼、是否有霧等。你需要設置大量旋鈕,這在電腦圖形學環境中非常困難。"
此外,還有另一個挑戰:如何確保你能夠準確重建你駕駛過的任何環境?是否有所有需要的資產?如果放置不同的資產,或者設置不同的條件,是否會產生差距?
Waymo正在探索使用機器學習來改進模擬器:
"可擴展模擬器的夢想是能夠直接從你自己的傳感器重建場景。我們有足夠的傳感器——相機和3D傳感器,你應該能夠在很大程度上直接從你駕駛過的內容構建模擬器。"
實際上,這意味著從實際收集的傳感器數據創建虛擬環境,而不是使用手動創建的3D模型。這樣可以確保模擬環境與真實世界更加接近。
Drago解釋了這一願景:"任何我用車駕駛過的情況,我都可以從中構建一個模擬環境。我可能需要用適當的交通來填充它,這就是生成式AI的用途。我可能需要讓它隨著我做的事情而演變,因為我的決定影響他人的決定。他們的反應會不同,我需要正確地建模這一點,否則就不會有現實的結果。"
在這方面,Waymo正在研究多種技術:
3D高斯濺射(Gaussian splats)和神經輻射場(NERF):這些是用於重建環境的技術,可以從多角度拍攝的圖像中重建3D場景。
擴散模型:這是一種生成模型,可用於創建新的環境部分或模擬代理行為。與3D重建技術不同,擴散模型可以生成全新的內容,而不僅僅是重建已有的內容。
Drago總結道:"可以想像,如果你有一個模型可以預測傳感器的未來值,你可以解構它在數據中的理解,這可以成為模擬器的基礎。這非常令人興奮,與當今的時代相符。我認為這是這類模型的時代。"
九、研究前沿:Waymo的2025年研究挑戰
為了推動自動駕駛技術的邊界,Waymo定期向更廣泛的研究社區提出挑戰。這些挑戰基於Waymo認為重要且有進步空間的技術問題,鼓勵研究人員提出創新解決方案。
Drago分享了2025年即將推出的研究挑戰:
僅依靠相機輸入的端到端駕駛:"我們分享了一些Waymo遇到的非常有趣的場景,我們想看看人們如何利用這些大型模型,讓它們在相當罕見的條件下泛化。" 這個挑戰考驗的是AI模型在僅使用相機數據(而非雷射雷達或雷達)的情況下,如何實現端到端的自動駕駛。特別是在罕見或複雜的駕駛場景中,模型是否能夠準確理解環境並做出安全決策。
模擬代理(agents)挑戰:"我們是唯一運行這種挑戰的公司。這是一個非常有趣的問題,你要構建填充模擬器的代理模型,並有驗證它們是否是好模型的方法。" 在模擬環境中,除了自動駕駛車輛外,還需要模擬其他道路使用者(如行人、其他車輛)。這個挑戰聚焦於如何創建行為逼真的虛擬代理,以便在測試中提供更真實的交通場景。
交通生成:"假設我給你一個交叉路口的路圖,我希望你用現實的交通來填充它,相關的位置、速度、行為是合理的,而不是臨時的。我們有方法來衡量交通場景的真實程度,我們想看看人們能做什麼。" 這個挑戰關注如何生成真實的交通流,使模擬測試更接近實際駕駛環境。參賽者需要創建算法,根據道路布局生成合理的交通模式,包括車輛位置、速度和行為。
交互建模:"這是我們大約四年前運行的挑戰,現在我們帶著改進的指標重新推出。這是一個令人興奮的挑戰,建模代理之間如何良好互動是一個有趣的問題。" 此挑戰聚焦於模擬不同道路使用者之間的互動,例如車輛如何對行人做出反應,或者多輛車如何在十字路口協調。準確模擬這些交互對於測試自動駕駛系統在複雜社交場景中的表現至關重要。
這些挑戰不僅推動了研究前沿,也幫助Waymo與更廣泛的研究社區保持聯繫,從外部創新中受益。通過公開數據集和明確的問題定義,Waymo鼓勵全球研究人員參與解決自動駕駛領域的關鍵技術挑戰。






