2013 年的時候,自動駕駛還是一個非常前沿和性感的概念,一如當下的 AGI,前幾年的元宇宙,在網際網路公司如火如荼的時代,騰訊每年都會舉辦一場 WE 大會,來聊一聊那一些星辰大海的話題,比如基因編輯、腦機接口、宇宙探索等等。
我第一次接觸「自動駕駛」的概念,就是在 2013 年第一屆騰訊 WE 大會上,當時有嘉賓拋出了如下觀點:
- 技術問題不難解決,難以解決的是法律問題。
- 在十年之內,消費者是可以買到無人駕駛汽車的。
- 如果機器它做的判斷正確率達到 95%,那可能還是要比人好、比人快。
十年之期已到,這些話算是大致應驗,當蘿蔔快跑已經在多個城市大規模上路,主流新勢力品牌的高端車型具備高階智能駕駛能力,以及特斯拉 FSD V12 版本的推送,還有特斯拉 RoboTaxi 即將發布,自動駕駛技術正從 L2 級別往 L4 級別邁進,「車坐不開」變得並不遙遠。
等一下,當我拿出這張圖,閣下該如何應對?
這是廣州城區日常交通狀況的一個普通場景:機動車道不僅跑著海量亂竄的兩輪電瓶車,甚至龜速的電動輪椅也跑在機動車道上。
此時,智能駕駛的優勢和挑戰就一起體現:優勢是智能駕駛沒有情緒,不會生氣不會路怒;挑戰是龜速電動輪椅和亂竄侵入機動車道的兩輪電瓶車對於智能駕駛來說,是很不好預測和處理的場景。
實際上,十年前預測自動駕駛發展大多基於一個邏輯:路上的車和人都遵守交規,紅燈停綠燈行,機動車道不會出現害人精。
但當廠商們交付帶智能駕駛功能的汽車到消費者手上時,汽車面對的情況就是上面這張圖:馬路是我家,交規去 TM。
經典智駕邏輯:「感知 — 規劃 — 控制」
當下主流的智能駕駛方案,無論是高精地圖方案,還是無圖方案,都依賴於大量工程師根據各種各樣的道路場景去編寫規則,以期實現窮舉所有道路狀況和對應措施,實現儘可能的智能駕駛行為。
不過現實道路情況不僅錯綜複雜,不可能被窮舉,同時現實世界也在不斷變化,隨時有新的道路場景出現。因而,此前智能駕駛研發是一場「無限戰爭」。
比如說,環島進出這個場景,在 7 月份之前,還沒有幾家車企能夠攻克,因為場景複雜,感知受限,規劃決策困難。
簡單來講,在特斯拉 FSD V12 版本採用「端到端」技術方案之前,幾乎所有的智駕方案都可以歸結為「感知 Perception — 規劃 Planning — 控制 Control」三個大模塊,這一套流程覆蓋各種各樣的場景,比如經典的三分法:高速場景,城區場景和泊車場景。
這幾個大場景又可以細分細分再細分,智駕工程師們針對場景來編寫規則代碼,汽車的雷射雷達、毫米波雷達和攝像頭還有定位系統一起協作,感知和記錄道路、環境和位置資訊,然後 BEV(Birds-Eyes-View)技術或者 OCC(Occupancy Network)技術或者其他的技術來把這些傳感器獲取的資訊形成能被智駕系統理解的「真實世界的虛擬投影」,智駕系統再根據這種「世界投影」規劃出合理的行進路線和運動規劃,進而得出控制決策,最後汽車響應決策,就形成了「減速,左側變向,提前走左側掉頭車道,緊急剎車躲避路中間亂入的兩輪電瓶車,繼續前進,調頭」這種智能駕駛行為。
▲ 極越汽車 OCC 占用網路示意圖
如果智能駕駛使用到了 OCC 占用網路技術,那麼我們就可以打個比方,在智駕系統里,外部世界就像《Minecraft》那樣,是由一個個方塊(體素)組成的,如果道路前方一片坦途,那理論上路上就沒有方塊,車就可以大膽往前走,如果前方有一個靜止的小方塊,那可能是雪糕桶跑到路中間了,如果右側有緩慢移動的長條,可能就是行人,如果是左邊車道快速移動的超大長方形塊,那可能是大貨車……
在這個「感知 — 規劃(決策)— 控制」的大邏輯下,不管是此前的基於高精地圖的方案,還是後續更依賴於多種傳感器融合和高本地算力的無圖 NOA(自動導航輔助駕駛)方案,都沒有脫離這個基本邏輯,研發的框架和工程師的工作,也都是在各個模塊里各司其職。
直到,「端到端」的出現。
什麼是「端到端」?
印象中有三次人工智慧的標誌性事件,引起了廣泛的社會討論。
第一次是 1997 年 IBM 的西洋棋機器人「深藍」戰勝了西洋棋大師卡斯帕羅夫,但站在如今的時間點看「深藍」,就會覺得它並非那麼智能,它只不過是存儲了巨量的開局和殘局棋譜,然後搭配高效的搜索算法和評估體系,選出最合適的下法。
也就是說,深藍在下棋的時候,中間的決策對於人類來說是可解釋的,邏輯清晰的。
接著就是在比西洋棋更複雜的圍棋領域,DeepMind 的 AlphaGo 贏了李世石和柯潔,宣布人工智慧的水平遠超所有人類棋手。
AlphaGo 的邏輯不是搜索匹配棋譜,畢竟圍棋的棋盤格子數和棋子數量遠超西洋棋,蘊含的可能性太高,現在的電腦沒法算出其中所有的可能性。但基於神經網路的深度學習,AlphaGo 一來可以自我學習自我進化,二來可以知曉下一步怎麼下更接近勝利,對於人類來說,AlphaGo 的下法和人類思考邏輯完全不同,但中間發生了什麼,人工智慧專家是知曉其邏輯的。
接著就是 ChatGPT 的出現,大語言模型技術在輸入和輸出之間,存在著人工智慧專家都難以解釋的「黑盒子」,人類無法準確解釋問問題和 ChatGPT 回答之間,具體發生了什麼。
以此做個比喻,智能駕駛技術此前基於「感知 — 規劃(決策)— 控制」的研發邏輯,類似於 AlphaGo ,AlphaGo 的卷積神經網路(CNNs)能夠處理棋盤的二維結構,提取空間特徵;而價值網路和策略網路能夠提供規劃和決策,此外還有強化學習和蒙特卡洛樹搜索技術能優化決策。
▲ 理想智駕端到端架構圖
而智能駕駛技術里的「端到端」,就類似於 ChatGPT 背後的大語言模型技術,從原始傳感器數據(如攝像頭、毫米波雷達、雷射雷達等)到最終的控制指令(如加速、剎車、轉向等)的全流程處理。當然,現階段這種直接控車的方式還是太激進,所以像是理想的端到端就只輸出軌跡,沒到控制,到車輛控制之前還是有很多約束和冗餘措施。這種方法的目標是簡化系統架構,通過一個單一的神經網路或模型完成整個任務,背後不再依賴海量的場景規則代碼,是完全不同的技術方向。
正如大語言模型之前強調的是參數量的大一樣,端到端背後的多模態模型也存在這樣一個量變產生質變的過程,特斯拉在 FSD V12 上率先使用了端到端技術,馬斯克就這麼說:
用 100 萬個影片切片訓練,勉強夠用;200 萬個,稍好一些;300 萬個,就會感到 Wow(驚嘆);1000 萬個,那就難以置信了。
但經常使用 ChatGPT 或者其他生成式 AI 工具的人就會發現,這些工具並不可靠,經常信誓旦旦地輸出錯誤答案,謂之「幻覺」。
電腦上的 AI 工具瞎回答問題一般沒什麽災難性後果,但智能駕駛事關生命安全,一個「端到端」搞定駕駛行為,還需要更多的驗證和保險措施,這是個技術問題,更是個工程問題。
對話理想智駕團隊:「端到端」才是真正用 AI 做自動駕駛
經歷了前面長篇累牘的背景介紹之後,終於可以切入正題:借著採訪理想智駕團隊的機會,來聊一聊「端到端」如何從理論,到上車?
理想智駕研發副總裁郎咸朋告訴愛范兒和董車會:
我們今年春季戰略會上有一個重要反思,就是我們太過於追求競爭,比方說老是盯著華為什麼的,它開多少城,它的指標是多少,其實單純的盯指標,比如說我比華為好一點,或比華為差一點,並不能代表用戶真正的需求。
回歸到用戶的開車需求上來看,真正的用戶需求不是接管率指標低到多少,用戶需要的是智駕像老司機那樣去開車,而這種擬人化的需求依靠原來規則化的模塊化的研發架構很難實現。但理想內部預研的「端到端」會做得更好。
基於此,在一年之間,理想的智駕技術方案經歷了三代調整:從有圖到 NPN(神經先驗網路)到無圖,再到端到端。
郎咸朋這麼解釋端到端本質上的不同:
端到端它表面上看是一個大模型替代幾個小的模型,其實它是一個分水嶺,從端到端開始,才是真正地用人工智慧的方式來做自動駕駛,前面其實還不是。
因為它是數據驅動的,由算力配合上數據,配合上模型,是高度自動化的自我疊代過程,這個過程疊代的是模型或系統自己的能力。那麼之前我們做了什麼呢?我們做的都是系統各種各樣的功能,上下匝道的功能或過收費站的功能。
功能和能力,是有很大區別的。
但實際上,理想智能駕駛夏季發布會上發布的下一代自動駕駛系統是「端到端 VLM(視覺語言模型)」雙系統方案。
既然前提是要把智駕做得像老司機駕駛,儘可能擬人化,那就得考慮人究竟是怎麼做事兒的,這裡的理論依據是諾貝爾獎獲得者丹尼爾·卡尼曼在《思考,快與慢》中的快慢系統理論:
人的快系統依靠直覺和本能,在 95% 的場景下保持高效率;人的慢系統依靠有意識的分析和思考,介紹 5% 場景的高上限。
理想「端到端 VLM」雙系統里的端到端就是快系統,有日常駕駛場景里快速處理資訊的能力,而 VLM 視覺語言模型有面對複雜場景的邏輯思考能力。
這個快系統的究竟有多快呢?
理想智駕技術研發負責人賈鵬說:
現在我們端到端延遲相當於是傳感器進來到控制輸出 100 多毫秒,不到 200 毫秒,以前分模塊大概得到 300 多將近 400 毫秒。
這個慢系統為什麼又是必要的呢?
郎咸朋解釋說:
我們現在正在探索它(VLM)的一些能力,它至少在剛才說的主路、輔路車道選擇這塊有一些價值,如果沒有它,也不會出安全問題。我們在 L3 級別智能駕駛起主要的支撐作用還是端到端,代表這個人正常的行為下的駕駛能力。
但到了 L4 級別智能駕駛一定是 VLM 或者大模型在這裡面起到更重要的作用,可能 90% 以上的時間它不起作用,但它起作用這些內容,是決定這個系統到底是 L3 級別還是 L4 級別的一個關鍵點,VLM 是能真正的能去應對這種未知的場景。
理想並不是一個端到端模型就完事兒,而是採用了更穩妥的雙系統方案來覆蓋全場景,端到端負責讓駕駛行為更擬人,更像老司機,而 VLM 視覺語言模型托住下限,更能拔高上限,有望達到更高級別的自動駕駛。
再深究一下,和原教旨主義的端到端最後還要負責汽車控制不同,理想的端到端其實也沒有直接能控車,而是到了輸出軌跡這一層級。
賈鵬說:
我們的端到端模型是到了軌跡,軌跡之後加一些安全兜底,因為在模型沒有達到上限之前,還是要有一些處理的東西,比如說猛打方向盤這樣的事,給他兜掉。
而在實際的智能駕駛過程中,兩個系統也是同時工作的,賈鵬具體解釋了兩個系統如何共同協作:
這倆系統一直都在實時運行,一塊跑是端到端,因為模型小一些,它的頻率比較高,比如跑個十幾赫茲。另外那個模型規模參數量就大的多,是 22 億參數,目前能跑到大概 3~4 赫茲之間,其實也是一直在跑。
VLM 發決策結果給參考點,比如說在 ETC 進高速的時候,其實車很難判斷要走哪個道,我要走人工還是走 ETC?這個時候 VLM 也一直都在,如果想去選 ETC 可以走 ETC 這條道,如果想走人工可以走人工這條道,只不過它是把決策結果和參考的軌跡扔給端到端模型,端到端模型推理後,再採用這個資訊。
其實 VLM 視覺語言模型是個輔助資訊,最終的軌跡結果是模型推理的結果,它是有一定概率被採納的。
為什麼端到端能夠在智能駕駛領域掀起如此大的浪潮?還是因為它背後巨大的可能性,以及在找「終極答案」上的指向性意義。
簡言之,在這套方案上,大家都還遠遠沒有摸到能力的天花板,技術探索和工程實踐,進入到了曠野區。
賈鵬進一步解釋雙系統的原理,以及可能性:
其實人就是雙系統,雖然物理結構上並不是那麼明確的雙系統,但是人的思維方式就是雙系統,所以我們當時有一個想法是在端到端的基礎上再加一個真正有泛化能力,有邏輯思考能力的一套系統,自然而然就想到了 VLM。
雖然 VLM 不直接控車,但是會提供決策。
再朝後這套東西怎麼發展?可能隨著算力的增加,比如特斯拉 FSD 12.3 到 12.5 版本,參數提高了 5 倍,可以支撐足夠大的模型。
我覺得以後兩個趨勢,第一是模型規模變大,系統一和系統二現在還是端到端加 VLM 兩個模型,這兩個模型有可能合一,目前是比較鬆耦合,將來可以做比較緊耦合的。
第二方面也可以借鑑現在多模態模型的大模型發展趨勢,它們就朝這種原生多模態走,既能做語言也能做語音,也能做視覺,也能做雷射雷達,我覺得這是將來要思考的事情。
我們這套範式應該能夠支撐我們做到(L4 級自動駕駛),因為在機器人具身智能上我們已經看到它的應用雛形,參考人的思維過程,這套東西可能就是我們心目中想追求的終極答案。
終極答案的意思是我們用這套理論和這套框架去做真正的人工智慧。
不過在聊終極答案之前,賈鵬解釋了為什麼只有端到端能夠解決「環島進出」的智駕難題:
如果是分段式的(智駕方案),前面是個感知,要給規控去做各種假設,做個掉頭,還得把掉頭線擬合出來,不同的路口的掉頭還不太一樣,曲率都不太一樣,所以你很難做到一套代碼就可以把所有環島掉頭搞定,種類太多了。
關於環島這件事,也有一個好玩的故事,在我們(模型數據包含)大概 80 萬 clips(影片片段)的時候,還過不了環島,後來突然發現一天我們(餵了)100 萬 clips 它自己能過環島,我覺得是 100 萬(影片片段)裡頭剛好有一些環島數據放在裡面了。
模型確實很厲害,你餵了什麼數據他就能學會,這是模型的魅力所在,就像 ETC,我覺得如果你開我們現在端到端的版本,會發現其實 ETC 它自己能過,但是問題是它現在不知道我要走哪條道,到底是走 ETC 道還是走人工道,他自己會隨便亂選一個,會讓你覺得不太安全,我們後面想做的就是 VLM 可以給他這個指引,因為 VLM 是可以理解語文字,理解 LED 指示燈的。
關於端到端理論部分的 What 和 Why,至此也有了大概的輪廓,有了數據和模型之後,就是真正地上車了,也就是 How,這才是真正的大考環節。
▲ 理想汽車製造車間
「訓練端到端模型,跟煉丹沒什麼區別」
郎咸朋給愛范兒和董車會講了一個訓練端到端模型里很離奇的小故事:
今年比較早期的時候,剛開始做項目,我們發現模型訓練出來,平時開著還都 ok,但等紅燈的時候,車的行為就比較怪異,它總是想變到旁邊的車道,我們不知道為什麼。
後來明白我們在訓練端到端模型的時候,刪除了很多在紅燈之前等待的數據,我們覺得等了幾十秒或者一分鐘,這樣數據沒有用。但後來發現這份數據非常重要,它教會了這個模型,有的時候是需要等待的,不是一旦你慢下來就要插空,就要變道。
這個小故事說明了,數據很大程度上決定了模型的質量,但模型的大小是有一定限制的,所以餵哪些數據去訓練模型,實際上就是最核心的工作之一。
郎咸朋打了個比喻:
訓練端到端模型,跟古代煉丹沒什麼區別。古代煉火藥講究一硝二磺三木炭,做出來的炸藥威力比較大。其他配比,可能也能點個火起來。
不過對於想要訓練端到端模型的車廠來說,「煉丹」只是形象地比喻,而非具體的工程落地方法,數據怎麼來,怎麼選,怎麼訓練,都是科學問題。
好在理想有一些先天優勢,比如車賣得不錯,銷量在新勢力車企里經常位居第一,路面上有 80 多萬輛理想汽車在跑,每個月還能新增四五萬輛,這些車提供了十幾億公里的數據。
另外,理想很早就意識到數據的重要意義,打造了關於數據的工具鏈等基礎能力,比如理想的後台資料庫實現了一段話查找當時,寫一句「雨天紅燈停止線附近打傘路過的行人」,就能找到相應的數據,這背後是一些雲端的小模型,比如數據挖掘模型和場景理解模型。
郎咸朋甚至認為,這些資料庫的工具鏈和基礎建設能力,某種意義上(重要性)甚至大於模型的能力,因為沒有這些良好的基建和數據,再好的模型也訓練不出來。
底層技術方案轉向,也意味著工作方式轉向,當發現一個 badcase 之後,理想內部的「分診台」系統里的模型會自動分析這屬於哪一類的場景問題,給出「分診建議」,然後回歸到模型訓練上來解決問題。
這裡也涉及到工作方式的轉變,原來解決具體問題的人,現在變成了設計解決問題工具的人。
為了提高「診療」效率,理想內部會同時訓練多個模型,這個過程又回到了「煉丹」的概念,賈鵬解釋說:
模型訓練主要兩個方面,一是數據的配方,類似的場景到底要加多少,能把 case 解決掉,這是一個 know-how,不同的場景對數據的要求不一樣。第二點是模型的超參,加入新的數據後,模型參數如何調整,一般情況下有 5-6 版模型會同時提交訓練,然後看哪一版解決了問題,同時得分也高。
同時訓練多個模型,對資料庫的基礎建設提出了要求,也對算力有巨大要求,這個時候就該「鈔能力」上場。這裡理想的優勢依舊是車賣得多且貴,有這新勢力車企里最好的營收和正向現金流,能夠支撐背後巨大的算力支出。
郎咸朋說:
我們預計,如果做到 L3 和 L4 自動駕駛,一年的訓練算力花銷得到 10 億美金,將來我們拼的就是算力和數據,背後拼的是錢,還是盈利能力。
當端到端模型替代了傳統智駕邏輯「感知 — 規劃 — 控制」里的大部分工作時,理想相關智駕團隊的最花力氣的工作也集中在了「一頭一尾」,頭是數據,尾是驗證。
除了端到端模型和 VLM 視覺語言模型這兩個快慢系統之外,理想內部還有一個系統三,稱之為試驗模型或者世界模型,本質上這是個考試系統,來考核整個智駕系統的水平和安全性。
郎咸朋把這個考試系統比喻成三個題庫的集合:
- 真題庫:人在路上駕駛的正確行為
- 錯題庫:正常的測試和開車過程中,用戶的接管,用戶的退出等行為
- 模擬題:根據所有的數據,舉一反三,針對特定重複問題,生成虛擬類似場景測試
比如前面提到,想要智駕開車擬人化,像老司機,那麼這個真題庫的駕駛行為,就得是老司機的駕駛行為,理想試驗模型里的「真題庫」選取了內部評分 90 分以上的司機駕駛行為,這個群體只占理想汽車司機里 3% 的比例,會看他們駕駛的平順性,駕駛的危險程度等等,比如司機經常開出 AEB 自動緊急剎車,那他的駕駛行為就太激進了。
經過了試驗模型的大量測試之後,還會有一個「早鳥用戶」的測試版本,這就是有上千輛用戶車獲得新的智駕系統版本,以無感知的「影子模式」在真實場景和道路里去做真實的驗證和測試,這比任何車廠的測試車隊規模都大。
這些千人早鳥用戶測試驗證的數據,又會自動回傳,自動分析,自動疊代訓練,進行新一輪的測試和交付。
也就是說,數據獲取,模型訓練,試驗考試和用戶交付是一個充滿了自動化循環邏輯的過程,人的參與度其實非常少。
按照郎咸朋和賈鵬說法,上到「端到端 VLM」之後,行業到了一個接近無人區的地方,這裡既有暫時看不到這套系統能力上限的興奮感,當然也有必須要務實的部分,比如目前只讓端到端模型輸出軌跡,軌跡之後的控制還需要安全兜底,再比如關於算力的思考:之前需要堆工程師數量,往後得堆顯卡的數量。
沒有算力,都是空想。
沒有利潤,算力也是空想。
再聊一下「終極答案」:理想,特斯拉和 OpenAI 的殊途同歸
正如馬斯克一再強調「特斯拉是一家 AI 和機器人公司,而不僅是一家汽車公司」一樣,在採訪中,郎咸朋和賈鵬也把理想汽車比喻成裝在輪子上的機器人,也聊到了人形機器人等具身智能載體在用「端到端 VLM」的框架的應用雛形。
特斯拉的 Optimus 機器人承載了馬斯克更大的願景,當然也是 FSD 的另一種載體,因為 Optimus 機器人釋放出的資訊還相對較少,但它確實擁有「端到端」模型,依靠本機的攝像頭和傳感器輸入環境資訊,然後直接輸出關節控制序列。
另外,OpenAI 和英偉達投資的 Figure 機器人剛剛發布了旗下的第二款人形機器人 Figure 02,並聲稱這是「世界上最先進的 AI 硬體」,其中 VLM 視覺語言模型是其重要能力。Figure 02 的頭部、前軀幹和後軀幹各配備六個 RGB 攝像頭,能夠通過其 AI 驅動的視覺系統來感知和理解物理世界。在官方的描述中,Figure 02「具有超人的視覺」。
當然,它自然也有 OpenAI 提供的大語言模型來和人類交流。
頗為類似的是,Optimus 機器人在特斯拉的車廠里開始打工(也是訓練),而 Figure 02 也在寶馬的車廠里進行測試和訓練,都能夠完成一些簡單的工作,並且都在不斷進化。
雖然理想汽車,特斯拉 Optimus 機器人以及 Figure 機器人看起來相關性不大,但一旦深究起來,底層的技術邏輯,以及關於 AI 的思考,確實殊途同歸,這也是「終極答案」的由來。
我們談了幾十年的人工智慧,重點終於從人工,轉移到了智能。