宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

X Square Robot開源三項技術,補齊具身AI的「大腦」缺口

2026年06月17日 首頁 » 熱門科技

當全球各地的機器人公司爭相展示人形機器人做後空翻、跑障礙賽、登台表演時,一家中國企業正在追求一個更難實現、也可能更具深遠意義的目標:讓機器人在人們真實生活和工作的複雜、不可預測的環境中自主運作。

X Square Robot創始人兼CEO王倩表示,機器人行業的硬體基礎已基本到位。人形機器人的運動能力、靈巧手和力控系統均已快速疊代,剩下的核心挑戰在於智能本身。

"硬體基本已經就緒,"王倩說,"真正的瓶頸在於'大腦'。"

為填補這一空白,X Square Robot在過去數周內相繼開源了三項技術:

Wall-OSS-0.5,一個視覺-語言-動作(VLA)模型;

WALL-WM,一個用於理解物理事件的世界動作模型;

XRZero-G0,一個無需真實機器人即可完成數據採集與訓練的框架,旨在大幅降低數據成本。

VLA模型已成為具身AI領域的主流技術路徑,但一個根本性問題始終懸而未決:預訓練本身能否讓機器人習得有用技能,還是僅僅為後續任務微調做鋪墊?

Wall-OSS-0.5正是為回答這一問題而設計的。X Square Robot沒有評估微調後的模型,而是將預訓練模型直接部署到實體機器人上,並在17項真實任務中進行測試。

該系統在物體分揀、套環堆疊,乃至柔性物體操控等任務中均展現出優異的零樣本性能。

模型的核心是一套"梯度橋接"訓練框架。Wall-OSS-0.5不再將感知與控制拆分為獨立模組,而是將機器人動作轉化為動作Token,在預訓練過程中與語言和視覺表徵共同學習。這使感知、語言理解與動作生成能夠在統一模型內協同演化。

研究還發現,動作訓練不僅提升了操控能力,還增強了視覺定位性能,這表明物理交互可以加深模型對世界的理解。

儘管Wall-OSS-0.5展現了VLA預訓練的潛力,X Square Robot認為單純的模仿學習還遠遠不夠。

大多數VLA系統只學習動作軌跡,並不真正理解物理因果關係。它們能夠重複訓練時見過的行為,但面對陌生情境時往往束手無策。

為解決這一局限,該公司推出了WALL-WM世界動作模型,將學習重心從固定動作序列轉向有意義的物理事件,如伸手、抓取、抬起和放置等。

與將感知、語言和控制分開處理的傳統架構不同,WALL-WM將視覺觀測、語言描述和動作圍繞真實世界事件進行統一對齊。其目標是讓機器人不僅能執行動作,還能預測結果、推理物理變化,並在計劃出現偏差時靈活調整。

X Square Robot表示,這一方法代表著向"能從經驗中學習、持續深化對物理世界理解"的機器人邁出了重要一步。

如果說世界模型是大腦,那麼數據就是燃料。

採集高質量的機器人演示數據成本高昂、耗時費力,且難以規模化。X Square Robot給出的答案是XRZero-G0——一套無需真實機器人即可完成數據採集與訓練的軟硬體一體化框架。

該系統整合了可穿戴交互界面、多視角感知、自動質量檢測和真實機器人驗證,在提升數據質量的同時大幅降低採集成本。

通過對照實驗,X Square Robot發現,將10條無機器人演示數據與1條真實機器人演示數據相結合,其效果可媲美完全由真實機器人數據構建的數據集。

該公司還公開發布了超過2000小時的多模態數據,涵蓋約3000項任務,以支持具身AI領域的廣泛研究。

三項技術的聯合發布,共同應對了具身AI面臨的若干核心挑戰。

Wall-OSS-0.5探索預訓練能否直接產生可遷移的機器人技能;WALL-WM研究機器人如何對物理世界進行建模與推理;XRZero-G0則攻克了支撐兩者的數據瓶頸問題。

三者合一,構成了一套覆蓋數據、世界模型與機器人基礎模型的全棧框架。

在CEO王倩看來,行業的關鍵轉折點或許比多數人預期的更快到來。擺在眼前的挑戰,已不再是教會機器人如何移動,而是教會它們如何理解所處的世界。

"具身智能XSquareRobot開源三項技術補齊具身AI的大腦缺口的'頓悟時刻',"她說,"可能比人們想像的近得多。"

Q&A

Q1:Wall-OSS-0.5是什麼模型?它的核心技術是什麼?

A:Wall-OSS-0.5是X Square Robot開源的一個視覺-語言-動作(VLA)模型。其核心是"梯度橋接"訓練框架,將機器人動作轉化為動作Token,在預訓練階段與語言和視覺表徵共同學習,使感知、語言理解和動作生成在同一模型內協同完成。該模型在17項真實任務中直接以預訓練狀態部署,在物體分揀、套環堆疊和柔性物體操控等任務上均表現出色。

Q2:WALL-WM世界動作模型與傳統VLA系統有什麼區別?

A:傳統VLA系統主要學習固定的動作軌跡,缺乏對物理因果關係的理解,遇到陌生情境容易失效。WALL-WM將學習重心轉向真實物理事件(如伸手、抓取、抬起、放置),並將視覺觀測、語言描述和動作圍繞這些事件統一對齊,使機器人能夠預測動作結果、推理物理變化,並在計劃失敗時靈活應對,而不僅僅是重複訓練時的行為。

Q3:XRZero-G0如何降低具身AI的數據採集成本?

A:XRZero-G0是一套無需真實機器人的數據採集與訓練框架,整合了可穿戴界面、多視角感知和自動質檢等模組。實驗表明,將10條無機器人演示數據與1條真實機器人數據結合,效果可媲美純真實機器人數據集,大幅降低了採集門檻。此外,該公司還公開了超過2000小時、涵蓋約3000項任務的多模態數據,進一步支持學術界和產業界的研究。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新