小鵬每年斥資35億元訓練AI，劍指特斯拉FSD

小鵬汽車小鵬每年斥資35億元訓練AI劍指特斯拉FSD 自動駕駛負責人近日向媒體透露，公司每月在AI訓練上的投入約為3億元，年化支出接近5億美元。他表示，小鵬的自動駕駛能力已與特斯拉FSD v13持平，且有望在今年夏末前追上v14。

贊助商廣告

記者在2026年CVPR大會（于丹佛舉辦）結束次日，與小鵬通用智能中心負責人劉鮮明博士進行了深入對話。此前，劉鮮明在大會主旨演講環節與特斯拉Ashok Elluswamy、英偉達及Waymo的負責人同台發言。

本次對話涵蓋小鵬VLA 2.0架構、傳感器策略、大眾汽車授權合作，以及劉鮮明為何認為整個自動駕駛行業不應將大語言模型視為自動駕駛的核心解決方案。

"語言是毒藥"：理解這一判斷的真實含義

劉鮮明因一句頗具爭議的表述而廣為人知："語言對自動駕駛而言是毒藥。"在採訪中，他對這一說法作出了詳細解釋。

小鵬第一代VLA（視覺-語言-動作）模型將語言Token作為中間處理環節——系統先感知道路，將所見內容轉化為類語言表示，再將其轉換為駕駛指令。而VLA 2.0則徹底移除了這一中間步驟。記者曾於今年4月在北京實測該系統，認為其表現與特斯拉FSD v14不相上下。

不過，劉鮮明澄清，小鵬並未完全放棄語言能力。系統仍接受語言作為輸入——駕駛員可通過文字或語音下達指令。被移除的，是在實際駕駛過程中以語言作為中間輸出的環節。

"我們仍然將語言作為輸入，這是提升模型泛化能力的關鍵。你對車說話、下達指令，車需要理解如何執行。但在行駛過程中，我們不再輸出任何語言Token，因為這是一種冗餘，也是模型的性能瓶頸。"劉鮮明說。

背後的邏輯十分清晰：攝影機每秒約攝入20億個視覺Token，而控制方向盤和踏板實際只需10至20個Token。這是極大的維度壓縮，中間再加一層語言轉譯，只會引入不必要的計算量和延遲。

"為了生成語言表達，你需要大量額外計算去'解釋'它，這正是我們去掉語言中間層的原因——但語言輸入依然保留。"他補充道。

贊助商廣告

世界模型：與VLA的同一枚硬幣

劉鮮明在CVPR演講中發布了一項新成果——小鵬的世界模型。他將其定位為與VLA不可分割的整體，而非獨立的技術方向，稱其為"同一問題的另一面"。

VLA 2.0從人類駕駛行為中學習——研究數百萬駕駛員在真實場景中的反應，並學習復現這些決策。世界模型則學習環境的物理規律——預測場景中接下來會發生什麼、其他交通參與者如何移動、某一動作會帶來什麼後果。

"很多人試圖將世界模型和VLA拆分為兩個獨立的技術維度，但它們本質上是同一件事，"劉鮮明說，"我們的目標是構建一個足夠強大的基礎模型，真正理解這個世界。"

實際應用層面，小鵬正在訓練VLA 2.0同時完成兩件事：預測攝影機近期將捕捉到的畫面，以及決定車輛的下一步動作——將駕駛決策與世界預測融合進同一個模型。該升級版本預計將於今年內推送至量產車型。

小鵬已就上述研究發布了系列論文，包括用於可控影片生成的X-World、面向聯合未來預測與規劃的X-Foresight，以及在幾乎不損失質量的前提下將世界模型計算量降低70%的X-Cache。此外，公司有關駕駛場景生成的論文"DrivePTS"也已被CVPR 2026收錄。

傳感器策略：視覺主導，雷達作為安全冗餘

小鵬的"純視覺"宣傳中有一個細節常被忽視：P7+、G7等近期車型仍搭載三顆毫米波雷達和十二個超聲波傳感器。記者就此詢問劉鮮明，這些傳感器如何融入端到端架構。

他的回答直接明了：它們根本不參與主駕駛AI的運算。

"我們確實使用了這些傳感器，但它們服務於主動安全系統——這是一套與主駕駛系統完全正交、彼此冗餘的獨立體系。"雷達和超聲波負責AEB（自動緊急制動）和AES（自動緊急轉向），構成完全獨立的安全層。

主駕駛系統仍然是純視覺方案。劉鮮明的邏輯落腳在資訊密度和延遲上："攝影機的讀出時間只有幾毫秒，速度非常快，頻率也可以做得很高。從資訊密度來看，攝影機是最優秀的傳感器之一。雷射雷達和毫米波雷達的處理時間通常需要數十乃至數百毫秒。"

贊助商廣告

這使小鵬處於一個頗為獨特的位置。特斯拉已將雷達和超聲波傳感器完全從車輛上移除，所有功能（包括主動安全）均依賴攝影機；Waymo則走向另一個極端，配備完整的雷射雷達套件；小鵬的做法是：駕駛大腦僅用視覺，但保留雷達作為獨立的安全冗餘。

當記者追問，視覺系統是否終將強大到足以讓冗餘安全層變得多餘時，劉鮮明的回答十分坦率："我們希望如此，但說實話，這不可能。人會犯錯，系統也會犯錯。即使能達到99.9999%的準確率，仍然存在出錯的概率。多一層冗餘，永遠有意義。"

他還補充道："這不是在用ChatGPT聊天，答錯了大不了說'這太蠢了，重來'——我們談的是人命。"

每年近35億元的AI訓練投入

記者向劉鮮明詢問小鵬在自動駕駛上的投入規模，他的回答令人震驚——尤其考慮到這家公司去年的交付量僅約20萬輛。

"網上有不少玩笑，說我總是向老闆要很多預算，"劉鮮明說，"他提到我每月大概花3億元來訓練模型，這基本上是真的。我確實花了很多錢。"

折算下來，這相當於每月約4100萬美元，全年僅AI模型訓練一項就接近5億美元。對於一家截至2025年底持有約476.6億元現金的公司而言，這是一筆相當可觀的支出。劉鮮明坦承，這對一家車企來說並不尋常："作為一家汽車公司，你無法想像如此巨大的研發投入，因為你很難靠它直接回收成本。但我們公司下定決心，要成為一家實體AI公司。"

小鵬在CVPR上披露，過去12個月內，其訓練基礎設施的單任務訓練效率提升了4360%，GPU利用率從40%提升至90%。VLA 2.0擁有數十億參數，每次模型疊代消耗超過4萬億個Token。

與特斯拉FSD的正面比較

劉鮮明在評價小鵬與特斯拉FSD的差異時措辭謹慎，但表達明確。

"我認為我們在底層哲學和原則上是一致的，那就是規模擴展，"他說，"無論是特斯拉、小鵬，還是其他走同一路線的公司，做的都是同一件事——遵循規模定律，確保系統由數據驅動，並能持續攝入海量數據。"

贊助商廣告

據劉鮮明介紹，關鍵差異在於數據多樣性。中國道路的複雜程度遠超美國——這一點記者在北京進行40分鐘VLA 2.0試駕時深有體會，遇到的邊緣案例數量，抵得上在北美行駛數周。

"在中國，你有更大的概率遭遇邊緣案例並採集到相應數據，這是我們的一個優勢，"劉鮮明說。他認為，這可能使小鵬在走向國際市場時，比特斯拉將FSD引入中國更有底氣——"因為你擁有更多樣化的數據，意味著你有更多機會。"

"裸奔賭注"：劉鮮明自信不必兌現

小鵬CEO何小鵬去年與劉鮮明立下公開賭約：若VLA 2.0未能在2026年8月30日前達到特斯拉FSD的性能水平，劉鮮明須裸奔橫穿舊金山金門大橋。

劉鮮明表示，他對此胸有成竹。"我非常有信心不需要去跑，"他說，"條件是今年年初達到與特斯拉FSD的同等水平。根據試駕結果，我們已經完成了這個目標。"

他透露，小鵬僅用數月時間，就從追平FSD v12跳升至"接近v14、甚至超越v13"的水平，並將此歸功於團隊的快速疊代能力。8月的截止日期依然有效，但劉鮮明對此顯得相當從容。

從"造車公司"到"實體AI公司"

採訪中最具啟示性的時刻，是劉鮮明在描述小鵬身份定位時，將公司比作"生產Pixel手機的谷歌"——硬體的存在，首要目的是展示並採集軟體所需的數據。

"生產和製造汽車，當然是我們當前工作的主要原因之一，"他說，"我們需要真實世界中的物理設備來確保我們獲得反饋、獲取數據——就像谷歌生產Pixel設備，是為了展示'Android能做什麼'。但另一方面，我們更想確立自己作為一家AI公司的身份。"

這一定位為大眾汽車引入VLA 2.0授權合作提供了註腳。大眾今年早些時候成為VLA 2.0首個外部客戶，計劃於2027年完成部署。劉鮮明淡化了將該系統移植到大眾車型的技術難度，指出小鵬內部已在20餘款不同車型上推送OTA更新。

"對我們來說，多兼容一兩款車不是什麼新鮮事。你訓練好一個模型，如果已經泛化到20款車上，再多21、22、23款又有什麼關係呢。"

贊助商廣告

他表示，更宏大的目標是推動整個行業共同參與："如果只有小鵬或特斯拉在做，這件事永遠不會真正實現。你需要很多合作夥伴，需要很多朋友，需要所有人接受自動化正在到來這一事實。"

結語

這次採訪印證了記者4月試駕VLA 2.0後的判斷——小鵬正在運行一套真正具備競爭力的自動駕駛程序，已能與特斯拉FSD形成實質性抗衡。而每月3億元的AI訓練投入，放在整個AI行業的支出格局中，其實並不算多。

最令記者印象深刻的，是劉鮮明在架構決策上的清晰表達。"語言是毒藥"聽起來像是譁眾取寵，但其背後的技術邏輯是自洽的——將連續視覺信號轉化為離散語言Token再轉回來，對於實時物理控制系統而言本就是低效的。這與業界大多數依賴大語言模型的路線有所不同，而VLA 2.0的實際路測表現，正在逐步為這一判斷提供驗證。

"Pixel手機"的類比同樣意味深長。小鵬正在釋放一個信號：造車是手段，而非目的。隨著大眾汽車完成授權引進，以及小鵬據報道正洽談收購大眾在歐洲的工廠，這家公司正同時向汽車製造商和自動駕駛技術供應商兩個方向布局——以此對沖哪一個業務最終將創造更大價值的不確定性。

可以說，相較於一家傳統意義上的汽車製造商，小鵬的野心，更像是一家"實體AI公司"。

Q&A

Q1：小鵬VLA 2.0去掉語言中間層的原因是什麼？

A：小鵬VLA 2.0移除語言Token中間環節，是因為攝影機每秒攝入約20億個視覺Token，而控制車輛實際只需10至20個Token。中間插入語言轉譯步驟會引入大量不必要的計算和延遲。劉鮮明強調，系統仍接受語言作為輸入（如駕駛員指令），只是在實際駕駛過程中不再輸出語言Token，以消除冗餘、提升效率。

Q2：小鵬每年在AI訓練上花多少錢？

A：據小鵬通用智能中心負責人劉鮮明透露，公司每月在AI模型訓練上的投入約為3億元約4100萬，全年合計接近5億美元。與此同時，小鵬的訓練基礎設施在過去12個月內實現了單任務訓練效率提升4360%，GPU利用率從40%提升至90%。

贊助商廣告

Q3：小鵬的傳感器策略和特斯拉有什麼不同？

A：小鵬與特斯拉同樣以攝影機作為主駕駛AI的核心傳感器，但兩者存在明顯差異：特斯拉已徹底移除雷達和超聲波傳感器，全部依賴攝影機；小鵬則在視覺主導的駕駛大腦之外，額外保留了三顆毫米波雷達和十二個超聲波傳感器，專門用於AEB（自動緊急制動）和AES（自動緊急轉向）等主動安全系統，作為獨立的冗餘安全層。