記得有那麼幾年,CES被叫做「披著科技展外衣的車展」,汽車廠商扎堆兒在拉斯維加斯發布概念車,汽車技術成了消費電子展上最大的展區,面積一年翻一倍。
風水輪流轉。
2026年北京車展,38萬平方米、首發新車181台、展車總數超過1400台,規模躍居全球車展首位。但具體看每一個展台,會發現AI才是主角,端到端大模型
、L3量產落地、艙駕融合
、車載智能體,早代替了馬力、扭矩和百公里加速。幾乎每家車企都在講自己的AI方案,合資品牌也都在拼命補智能化的課。
在這些變化的底層,阿里雲扮演了一個非常重要的角色。過去一年,阿里雲全棧AI雲,支撐全部中國車企智能化落地和全球化升級。60%中國智能駕駛AI算力跑在阿里雲上。算力和基礎設施看似在底層,但直接決定AI的性能上限和功能邊界,也就直接了解車主的駕乘感知。

如今,兩個汽車領域的老詞,就在AI的加持下,呈現出新的內涵。一個是「人車合一」,一個是「第三空間」。具體的感知,可以從車展上的一個關鍵詞說起,千問上車。
千問上車,是阿里雲在這次車展上主打的IP。千問App這個名字大家不陌生,它是阿里巴巴面向C端用戶的移動AI助手APP,服務超過3億用戶。

但車裡的千問和手機上的千問有相同也有所不同。相同之處,底層都有千問大模型家族的承載;不同之處在於,千問上車是兩股力量的組合:一是千問智能體,它是為座艙場景重新設計的雲端AI助手,能理解意圖、調用服務、替你辦事;二是千問大模型,它不僅在雲端支撐智能體的推理,更以Qwen-Omni的形態部署在端側,讓車本身具備感知物理世界的能力。
二者聯手,才能實現接下來我們要講的新「人車合一」。
我們拿車裡最常見的場景,導航來舉個例子。大家知道,曾經的導航,其實更像是地圖的加強版,在A點和B點之間畫線。但實際上,車輛的路徑,源自於乘客的需求。這些需求,往往是模糊和不確定的,並非兩點之間直線最短。
比如一種典型的需求是 「一會去亮馬河,找個離上船碼頭最近的餐廳吃個飯,然後去三里屯太古里,但不想排隊進地庫,需要導航到附近的停車場」。
這一系列想法,人類司機自然是能理解的,但傳統汽車導航就無能為力。我們只能手動將一個個地理坐標,先後錄入到導航App中。
但千問智能體,現在已經能做到對這種模糊需求的精確理解了。
如果說導航是讓車駛到某個坐標,用戶實際上想要的是要在這個地理位置實現的某種需求,比如導航版去咖啡館不是目的,喝一杯咖啡才是目的。
那麼更進一步,智能體還能完成下一棒的接力,因為千問智能體可以調用購物技能。
具體來說,淘寶閃購能在雲端完成定位、商家篩選、商品匹配、生成訂單,再交由支付寶識別用戶聲紋完成扣款。全程用戶不用掏手機,不用跳到別的APP。從意圖到執行到支付,一整套都在車端的千問智能體裡面閉環了。
阿里雲還引入了一個「有屏無操作」的設計邏輯。
因為行車中人最稀缺的兩種資源是注意力和雙手,傳統APP那套彈卡片、手指點選、跳轉支付的邏輯直接搬進汽車的智能座艙中,是行不通的。
語音在這個場景里不是更好的選項,而是唯一的選項。「有屏無操作」,意味著用戶只要對著螢幕說話就可以了。
所以,我們過去說人車合一,說的是駕駛者踩油門車就走、打方向車就轉,是肌肉和機械之間的默契。現在這種「你說車就辦」,其實也是一種合一,只是從腳和手,換成了語言和腦。
物理世界加數字世界
一般來說,用戶端的操作越簡單,背後的架構設計就越複雜,技術含量越高。千問智能體也不例外,它由車內端側的物理智能和雲上的數字智能組合而成。
阿里雲智能集團AI汽車行業總經理李強最近在智能電動汽車發展高層論壇(2026)上,對這套架構做了非常清晰的表述:端側處理物理世界的交互需求,雲端通過千問智能體承載數字世界的能力。物理世界加數字世界,合在一起才是座艙的完整服務版圖。
先說物理世界這端。
千問上車在端側的核心是千問大模型家族的Qwen-Omni,李強稱之為「三進兩出」的模型架構。這是千問系列中專門面向多模態感知的分支,今年三月底剛發布,能同時處理語音、圖像、影片三種輸入。它的工作不只是聽你說了什麼,語義層面的理解交給雲端的大模型也行,端側真正不可替代的能力是感知物理世界。
乘客的表情、語氣、情緒,是疲憊還是興奮,當我們說「找個安靜的地方」到底是想去圖書館還是咖啡館,這些非語義信號只有在車裡、靠近用戶的端側模型才能捕捉到。

除了感知,端側模型還有調度責任,哪些是端側的工作,哪些需要雲端的配合。
顯然,當我們說「打開車窗」,端側直接就能下發指令閉環。當我們講一段模糊的導航意圖,端側判斷之後就需要交給雲端去搜索和推理。
要做到這個調度過程對用戶的無感,非常考驗端側模型的響應速度和資源分配能力。
但這裡面有一個關係容易被忽略,端側是一個根本。
李強也講過一個極限場景:弱網環境下的體驗保障。隧道里、地庫里、信號差的山路上,雲端可能斷了,但端側的基本交互不能中斷,「在保障用戶隱私與安全的同時,必須確保在弱網環境下依然能處理物理世界的交互需求」。
另外,端側感知如果不准,雲端給出的服務就全部失配。打個比方,端側像一位貼身管家。如果管家翻譯錯了,後面會全錯。因此,端側模型的質量,決定了整個體驗鏈條的下限。
數字世界那端就是雲端,決定了智能座艙體驗的上限。
雲端除了更大尺寸的模型推理和意圖理解,還有一個不可或缺的能力拼圖,是阿里的生態服務。
前面說的淘寶閃購、支付寶聲紋支付,都是雲端在接到端側傳過來的意圖之後完成的生態組合拳。
以前我們講「人車合一」,更多是人如何去理解車,實現更完美的駕駛;現在我們講「人車合一」,更多是車如何更好理解人,交付更完美的體驗。
在和阿里雲座艙的相關專家交流之後,我發現,這套體系,似乎還可以用今年AI圈最火的兩個開源項目來類比。
一個是OpenClaw,一個是Hermes Agent。
我們先說後者。
Nous Research今年二月發布了Hermes Agent,兩個月內GitHub星標突破九萬,是2026年增長最快的AI Agent框架之一。它跟其他Agent框架最大的區別在於一個閉環學習機制:Hermes解決一個問題之後,會自動把解決過程沉澱為一個可復用的skill,下次遇到類似問題直接調用。
根據Nous Research的內部測試,積累了20個以上自建skill的Hermes Agent,完成同類研究任務的效率比全新實例快40%。越用越強。
千問座艙其實也有類似的邏輯。它通過持續對話學習車主畫像,你喜歡安靜的咖啡館,你習慣走某條路,你下午三點左右總想買杯奶茶,這些資訊沉澱下來之後,系統給出的建議會越來越貼合你。
這和早期的RAG知識庫有本質的區別。
RAG式的「懂」是查詢匹配,我們現在所說的「懂」是行為進化,系統理解了用戶的偏好模式和意圖習慣,主動調整自己的行為邏輯。千問座艙走的是後者這條路。
我們再來說OpenClaw,也就是龍蝦。這個大家就更熟悉了。
Peter Steinberger去年底發布的這個項目,短短幾個月拿下超過三十萬GitHub星標。如果說Hermes Agent的特徵是進化,OpenClaw的核心能力在於連接:它用標準化協議和內置skill把各種平台、各種服務串聯起來。
顯然,這個生態越大、接入越多,能辦的事就越多。某種程度上,如果不是OpenClaw在前邊的Skills開路,也就沒有之後Hermes Agent的接力爆火。
無獨有偶,生態性在千問上車的過程中也充分體現了優勢。阿里生態上的高德、淘寶、支付寶,都已通過標準化接口接進千問智能體,未來還會更多。集團在各業務領域的廣泛生態布局,使得這種連接優勢在不同場景中都能發揮作用——生態越豐富、結合越廣泛,帶來的價值就越大。車企接入千問智能體,等於接入了這整張生態網路。
2026北京車展開幕首日,長安
、東風、北汽
、比亞迪
、吉利
、長城
、理想、上汽大眾
、上汽智己
均宣布接入千問。
3月份,一汽紅旗率先宣布接入千問,在車內可實現多模糊意圖識別與複雜路徑規劃的服務閉環;4月份,廣汽集團宣布接入千問後,座艙具備了極強的邏輯理解與長文本處理能力,並融入阿里巴巴「吃、住、行、游、購、娛」全生態,實現「一次指令、全部搞定」。
實現這個成果,背後原因,或許是單一維度的領先容易實現,但「自進化的深度」乘以「生態接入的廣度」,這個乘積才構成真正的壁壘。
如我們在前邊所講,阿里在兩端都有積累:千問APP的3億用戶沉澱了海量意圖理解數據,集團的生態提供了國內最完整的生活服務矩陣。
當車裡能做的事越來越多,點外賣、買咖啡、查藥店、訂酒店,它就不再只是一個出行工具了,它開始像一個你能在其中工作和生活的空間。
其實行業已經喊了好幾年「第三空間」,但過去這個詞約等於座艙里能聊天。加個大屏加個語音助手,能講笑話能播歌。
但那不是空間,而是一個帶輪子的音箱。車裡真的能辦事了,「第三空間」才開始有了更實質的意義。畢竟,我們在第一空間和第二空間,是要真做事,真享受生活的。
對了,最後說一個很巧合的事情。「人車合一」和「第三空間」這兩個詞都誕生在1989年。那一年,美國社會學家Ray Oldenburg出版了《The Great Good Place》,把咖啡館和公園定義為家和辦公室之外的"第三空間",後來星巴克拿著這個概念做成了一門生意。同一年,馬自達
第一代MX-5的設計師說了一句後來被引用了無數次的話:「有那麼一瞬間,我忘記了車的存在,我想這就是人車合一。」
37年後,這兩句話都有了另一層意思,並且融為一體。在千問坐進副駕,車能替你辦事、能讀你的狀態、能越用越懂你的時候,你也會忘記車的存在。只不過這一次,你忘記的不是操控的邊界,而是「車」這個概念本身。因為它不再只是一輛車了,它變成了你的第三個生活空間。






