X Square Robot開源三項技術，補齊具身AI的「大腦」缺口

當全球各地的機器人公司爭相展示人形機器人做後空翻、跑障礙賽、登台表演時，一家中國企業正在追求一個更難實現、也可能更具深遠意義的目標：讓機器人在人們真實生活和工作的複雜、不可預測的環境中自主運作。

贊助商廣告

X Square Robot創始人兼CEO王倩表示，機器人行業的硬體基礎已基本到位。人形機器人的運動能力、靈巧手和力控系統均已快速疊代，剩下的核心挑戰在於智能本身。

"硬體基本已經就緒，"王倩說，"真正的瓶頸在於'大腦'。"

為填補這一空白，X Square Robot在過去數周內相繼開源了三項技術：

Wall-OSS-0.5，一個視覺-語言-動作（VLA）模型；

WALL-WM，一個用於理解物理事件的世界動作模型；

XRZero-G0，一個無需真實機器人即可完成數據採集與訓練的框架，旨在大幅降低數據成本。

VLA模型已成為具身AI領域的主流技術路徑，但一個根本性問題始終懸而未決：預訓練本身能否讓機器人習得有用技能，還是僅僅為後續任務微調做鋪墊？

Wall-OSS-0.5正是為回答這一問題而設計的。X Square Robot沒有評估微調後的模型，而是將預訓練模型直接部署到實體機器人上，並在17項真實任務中進行測試。

該系統在物體分揀、套環堆疊，乃至柔性物體操控等任務中均展現出優異的零樣本性能。

模型的核心是一套"梯度橋接"訓練框架。Wall-OSS-0.5不再將感知與控制拆分為獨立模組，而是將機器人動作轉化為動作Token，在預訓練過程中與語言和視覺表徵共同學習。這使感知、語言理解與動作生成能夠在統一模型內協同演化。

研究還發現，動作訓練不僅提升了操控能力，還增強了視覺定位性能，這表明物理交互可以加深模型對世界的理解。

儘管Wall-OSS-0.5展現了VLA預訓練的潛力，X Square Robot認為單純的模仿學習還遠遠不夠。

大多數VLA系統只學習動作軌跡，並不真正理解物理因果關係。它們能夠重複訓練時見過的行為，但面對陌生情境時往往束手無策。

贊助商廣告

為解決這一局限，該公司推出了WALL-WM世界動作模型，將學習重心從固定動作序列轉向有意義的物理事件，如伸手、抓取、抬起和放置等。

與將感知、語言和控制分開處理的傳統架構不同，WALL-WM將視覺觀測、語言描述和動作圍繞真實世界事件進行統一對齊。其目標是讓機器人不僅能執行動作，還能預測結果、推理物理變化，並在計劃出現偏差時靈活調整。

X Square Robot表示，這一方法代表著向"能從經驗中學習、持續深化對物理世界理解"的機器人邁出了重要一步。

如果說世界模型是大腦，那麼數據就是燃料。

採集高質量的機器人演示數據成本高昂、耗時費力，且難以規模化。X Square Robot給出的答案是XRZero-G0——一套無需真實機器人即可完成數據採集與訓練的軟硬體一體化框架。

該系統整合了可穿戴交互界面、多視角感知、自動質量檢測和真實機器人驗證，在提升數據質量的同時大幅降低採集成本。

通過對照實驗，X Square Robot發現，將10條無機器人演示數據與1條真實機器人演示數據相結合，其效果可媲美完全由真實機器人數據構建的數據集。

該公司還公開發布了超過2000小時的多模態數據，涵蓋約3000項任務，以支持具身AI領域的廣泛研究。

三項技術的聯合發布，共同應對了具身AI面臨的若干核心挑戰。

Wall-OSS-0.5探索預訓練能否直接產生可遷移的機器人技能；WALL-WM研究機器人如何對物理世界進行建模與推理；XRZero-G0則攻克了支撐兩者的數據瓶頸問題。

三者合一，構成了一套覆蓋數據、世界模型與機器人基礎模型的全棧框架。

在CEO王倩看來，行業的關鍵轉折點或許比多數人預期的更快到來。擺在眼前的挑戰，已不再是教會機器人如何移動，而是教會它們如何理解所處的世界。

"具身智能 XSquareRobot開源三項技術補齊具身AI的大腦缺口的'頓悟時刻'，"她說，"可能比人們想像的近得多。"

Q&A

Q1：Wall-OSS-0.5是什麼模型？它的核心技術是什麼？

贊助商廣告

A：Wall-OSS-0.5是X Square Robot開源的一個視覺-語言-動作（VLA）模型。其核心是"梯度橋接"訓練框架，將機器人動作轉化為動作Token，在預訓練階段與語言和視覺表徵共同學習，使感知、語言理解和動作生成在同一模型內協同完成。該模型在17項真實任務中直接以預訓練狀態部署，在物體分揀、套環堆疊和柔性物體操控等任務上均表現出色。

Q2：WALL-WM世界動作模型與傳統VLA系統有什麼區別？

A：傳統VLA系統主要學習固定的動作軌跡，缺乏對物理因果關係的理解，遇到陌生情境容易失效。WALL-WM將學習重心轉向真實物理事件（如伸手、抓取、抬起、放置），並將視覺觀測、語言描述和動作圍繞這些事件統一對齊，使機器人能夠預測動作結果、推理物理變化，並在計劃失敗時靈活應對，而不僅僅是重複訓練時的行為。

Q3：XRZero-G0如何降低具身AI的數據採集成本？

A：XRZero-G0是一套無需真實機器人的數據採集與訓練框架，整合了可穿戴界面、多視角感知和自動質檢等模組。實驗表明，將10條無機器人演示數據與1條真實機器人數據結合，效果可媲美純真實機器人數據集，大幅降低了採集門檻。此外，該公司還公開了超過2000小時、涵蓋約3000項任務的多模態數據，進一步支持學術界和產業界的研究。