在一個日常家庭早晨,鬧鐘響起,客廳一片狼藉,拖鞋不知去向、碗筷未洗、孩子書包散落、貓咪打翻了水杯……,如果此時有一個「24小時保姆」已悄然收拾妥當、甚至倒好溫度適宜的水,這是否會讓生活瞬間美好?
然而,自變量機器人創始人兼CEO王潛直言,「在全球範圍內,目前沒有任何一台機器人能在無遙控、無預編程的情況下,獨立完成這樣的家庭任務。」
作為一家接連被字節、阿里、小米、美團等網際網路巨頭投資的具身智能
團隊,如今估值已經超百億的獨角獸自變量機器人,今天在北京召開了一場發布會,在發布會現場,王潛就具身智能當下行業現狀進行了一次公開揭秘:
現在的跳舞機器人,舞蹈動作都是提前編好的程序或者遙控操作,每一個動作都是預設的軌跡,它看起來很酷,但其實不知道自己在做什麼;
展會上看到的很多智能機器人,絕大部分是靠背後遙控操作;
進工廠的機器人和進家庭本質上是兩件事,工廠里一個動作重複1萬次,家庭里每個動作做1萬次,每次都不一樣;
……
之所以會出現這種情況,王潛指出,現在的機器人的硬體已經發展到位,但是大腦沒有跟上。
而這次,自變量機器人要發布的,正是一個具備零樣本學習能力的具身智能基礎模型,以及他們的機器人家庭落地計劃。

01 VLA、世界模型,需要統一架構
談到人形機器人,行業往往習慣將其與人類進行對比,而視覺能力、工具使用能力、語言交互能力,是人類進化而來的能力,機器人同樣需要這樣的能力,VLA是具身智能行業看到的打造這一系列能力的技術路徑。
不過,自變量機器人CTO王昊在發布會上指出,如今的VLA模型普遍受困於模組化架構:
視覺模組貼標籤(認出杯子卻不知把手朝向、是否盛水),動作模組依賴預設軌跡,語言模組僅懂固定指令,無法理解意圖。
由此帶來的結果是,VLA模型只能「模仿」,並不能真正「理解」真實世界,實驗室表現完美的具身模型,真實進入用戶家庭中後,就會瞬間崩潰。
正因如此,王昊指出,「模仿」已經成為全世界都在做的VLA模型的天花板。

那麼,下一代具身智能基礎模型應該具備怎樣的能力呢?
王昊認為,下一代具身智能基礎模型需要具備三項能力:
理解世界,能夠感知世界,並理解世界的物理規律;
舉一反三,不用每個動作都需要人來教;
內心強大,在真實環境中坦然面對失敗,並能重新學習、持續學習。
實際上,具身智能行業也正是看到了這樣的行業困境,VLA+世界模型的組合在2026年開始流行起來。
不過,王昊認為,世界模型不是一個單獨的模組,本質上是一種能力,是一種對物理世界預測的能力,不能直接掛載到一個VLA模型上,而是需要一個融合的架構,就想XPU計算架構一樣。

這也正是自變量機器人這次發布的WALL-B模型的獨特性所在。
王昊指出,「自變量機器人是將視覺、語言、動作、預測放到了同一個網路中訓練,這也就是我們提出的世界統一模型架構。」
基於世界統一模型架構的模型,避免了以往視覺模組學到了豐富的資訊,因為傳輸過程中的數據損耗問題,傳輸到視覺模組只剩下一個模糊的輪廓,而WALL-B是全球首個基於世界統一模型架構的具身智能基礎模型。
據王昊透露,基於世界統一模型架構,WALL-B有三大特點:
首先,原生多模態。
傳統機器人視覺、語言、觸覺是「拼接」而來,資訊層層轉述丟失嚴重,WALL-B從底層實現「原生多模態」:視覺、語言、觸覺、動作天生一體,無需借用外部模組。

在執行任務過程中,它不僅能認出杯子,還具備部件級理解能力——能夠理解水杯的把手位置、開口方向、材質、含水量,同時支持力反饋與傳感器融合,拿雞蛋知輕、拎水壺知重。
與此同時,它還具備「原生本體感」,機器人無需觀察自身全身,即可精準感知身高、體寬、手臂伸展範圍,這種空間感讓它具備了像人類一樣自然行動的基礎。
其次,原生具備「世界觀」,即對物理規律的原生理解能力。
人類無需教導就知道桌邊的盤子可能會掉下來,這是因為我們知道重力、慣性、摩擦等物理規律的存在。WALL-B通過世界統一模型架構同樣學習了這些規律,而非被告知,它能預測未見過的場景:想像懸空盤子掉落軌跡、預測貓咪跳下沙發的後果。
這種「想像力」源於對世界的因果建模,也因此讓WALL-B具備了零樣本泛化的能力。

第三,與世界的主動交互與自我進化能力。
現有的具身模型普遍「玻璃心」,失敗一次就停止運行,完全依賴工程師重新訓練數據,WALL-B則像人類嬰兒一樣,會通過反覆嘗試調整參數,直到成功完成一個任務,在完成這個任務後,這樣的成功經驗也會被內化到模型中,從而真正實現了在真實環境中「邊做邊學」。

與此同時,WALL-B所有經驗以原生多模態記憶方式更新,克服了基於transformer架構的具身模型無法做記憶內化的問題。
正是基於自變量機器人提出的世界統一模型架構,WALL-B具備了這三大特性,擁有了走入複雜家庭環境的可能。
02 自變量機器人的家庭落地計劃
在具身智能經歷了這幾年快速發展後,數據已經成為行業發展瓶頸,也成為這一行業「最大的秘密」。
自變量機器人內部將具身數據分為兩類:糖水數據和牛奶數據。
所謂糖水數據,指的是在環境乾淨、燈光穩定、桌面固定、無貓無孩、無任何不可預測變量的實驗室中採集到的數據,這類數據量大可控,卻像糖水——甜但不會增加抵抗力,基於這些數據訓練的具身模型,就像在泳池中學習游泳的人類一樣,無法在大海中游泳。

更重要的是,基於實驗室數據訓練出的模型難以具備零樣本泛化能力,因為現實家庭永遠是「新環境」——100個家庭有100種杯子、1萬種組合,燈光、地毯摩擦力、玩具位置、貓咪軌跡各不相同。
牛奶數據指的是基於嘈雜、複雜的家庭環境的真實數據,這種環境中的數據充滿了隨機性,但這類數據採集成本高、獲取數據難、數據量少。
採用牛奶數據訓練模型,是王昊認為真正訓練出具備零樣本泛化能力的具身智能基礎模型必然要走的路徑。
正因如此,自變量機器人團隊進入了超過100個志願者家庭中訓練模型,而WALL-B正是基於「實驗室數據打底、真實環境數據提質」的策略下,訓練而出的一個具身智能基礎模型。

那麼,這樣一個基於WALL-B模型的具身機器人,何時能夠進入用戶家庭中呢?
在發布會最後,王潛給出了自變量機器人的deadline:
2026年5月25日,新一代部署了WALL-B模型的機器人將會進入家庭。
在發布會上,王潛還公布了首批家長招募計劃,王潛希望,通過這一計劃,試著讓矽基智能體開始成為家庭中的一員。

不過,王潛也指出,現在基於WALL-B的機器人仍然是一個處於嬰兒時期的「實習生」,當它進入家庭中面臨大量隨機環境時,依然需要自變量機器人團隊來進行遠程幫助,幫助它完成一些複雜的操作任務。
而這樣每天都會在家庭環境中產生數據、自我進化的機器人,也將會是具身機器人進入家庭的第一步。






