X Square Robot开源三项技术,补齐具身AI的"大脑"缺口

中国机器人企业X Square Robot正专注于解决具身AI最核心的智能瓶颈。该公司近期连续开源三项技术:视觉-语言-动作模型Wall-OSS-0.5、用于理解物理事件的世界动作模型WALL-WM,以及低成本数据采集框架XRZero-G0。其中XRZero-G0通过结合少量真实机器人数据与大量无机器人演示数据,大幅降低训练成本,并已开放逾2000小时多模态数据集。创始人王倩表示,具身智能的"顿悟时刻"或许比人们预想的更快到来。

当全球各地的机器人公司争相展示人形机器人做后空翻、跑障碍赛、登台表演时,一家中国企业正在追求一个更难实现、也可能更具深远意义的目标:让机器人在人们真实生活和工作的复杂、不可预测的环境中自主运作。

X Square Robot创始人兼CEO王倩表示,机器人行业的硬件基础已基本到位。人形机器人的运动能力、灵巧手和力控系统均已快速迭代,剩下的核心挑战在于智能本身。

"硬件基本已经就绪,"王倩说,"真正的瓶颈在于'大脑'。"

为填补这一空白,X Square Robot在过去数周内相继开源了三项技术:

Wall-OSS-0.5,一个视觉-语言-动作(VLA)模型;

WALL-WM,一个用于理解物理事件的世界动作模型;

XRZero-G0,一个无需真实机器人即可完成数据采集与训练的框架,旨在大幅降低数据成本。

VLA模型已成为具身AI领域的主流技术路径,但一个根本性问题始终悬而未决:预训练本身能否让机器人习得有用技能,还是仅仅为后续任务微调做铺垫?

Wall-OSS-0.5正是为回答这一问题而设计的。X Square Robot没有评估微调后的模型,而是将预训练模型直接部署到实体机器人上,并在17项真实任务中进行测试。

该系统在物体分拣、套环堆叠,乃至柔性物体操控等任务中均展现出优异的零样本性能。

模型的核心是一套"梯度桥接"训练框架。Wall-OSS-0.5不再将感知与控制拆分为独立模块,而是将机器人动作转化为动作Token,在预训练过程中与语言和视觉表征共同学习。这使感知、语言理解与动作生成能够在统一模型内协同演化。

研究还发现,动作训练不仅提升了操控能力,还增强了视觉定位性能,这表明物理交互可以加深模型对世界的理解。

尽管Wall-OSS-0.5展现了VLA预训练的潜力,X Square Robot认为单纯的模仿学习还远远不够。

大多数VLA系统只学习动作轨迹,并不真正理解物理因果关系。它们能够重复训练时见过的行为,但面对陌生情境时往往束手无策。

为解决这一局限,该公司推出了WALL-WM世界动作模型,将学习重心从固定动作序列转向有意义的物理事件,如伸手、抓取、抬起和放置等。

与将感知、语言和控制分开处理的传统架构不同,WALL-WM将视觉观测、语言描述和动作围绕真实世界事件进行统一对齐。其目标是让机器人不仅能执行动作,还能预测结果、推理物理变化,并在计划出现偏差时灵活调整。

X Square Robot表示,这一方法代表着向"能从经验中学习、持续深化对物理世界理解"的机器人迈出了重要一步。

如果说世界模型是大脑,那么数据就是燃料。

采集高质量的机器人演示数据成本高昂、耗时费力,且难以规模化。X Square Robot给出的答案是XRZero-G0——一套无需真实机器人即可完成数据采集与训练的软硬件一体化框架。

该系统整合了可穿戴交互界面、多视角感知、自动质量检测和真实机器人验证,在提升数据质量的同时大幅降低采集成本。

通过对照实验,X Square Robot发现,将10条无机器人演示数据与1条真实机器人演示数据相结合,其效果可媲美完全由真实机器人数据构建的数据集。

该公司还公开发布了超过2000小时的多模态数据,涵盖约3000项任务,以支持具身AI领域的广泛研究。

三项技术的联合发布,共同应对了具身AI面临的若干核心挑战。

Wall-OSS-0.5探索预训练能否直接产生可迁移的机器人技能;WALL-WM研究机器人如何对物理世界进行建模与推理;XRZero-G0则攻克了支撑两者的数据瓶颈问题。

三者合一,构成了一套覆盖数据、世界模型与机器人基础模型的全栈框架。

在CEO王倩看来,行业的关键转折点或许比多数人预期的更快到来。摆在眼前的挑战,已不再是教会机器人如何移动,而是教会它们如何理解所处的世界。

"具身智能的'顿悟时刻',"她说,"可能比人们想象的近得多。"

Q&A

Q1:Wall-OSS-0.5是什么模型?它的核心技术是什么?

A:Wall-OSS-0.5是X Square Robot开源的一个视觉-语言-动作(VLA)模型。其核心是"梯度桥接"训练框架,将机器人动作转化为动作Token,在预训练阶段与语言和视觉表征共同学习,使感知、语言理解和动作生成在同一模型内协同完成。该模型在17项真实任务中直接以预训练状态部署,在物体分拣、套环堆叠和柔性物体操控等任务上均表现出色。

Q2:WALL-WM世界动作模型与传统VLA系统有什么区别?

A:传统VLA系统主要学习固定的动作轨迹,缺乏对物理因果关系的理解,遇到陌生情境容易失效。WALL-WM将学习重心转向真实物理事件(如伸手、抓取、抬起、放置),并将视觉观测、语言描述和动作围绕这些事件统一对齐,使机器人能够预测动作结果、推理物理变化,并在计划失败时灵活应对,而不仅仅是重复训练时的行为。

Q3:XRZero-G0如何降低具身AI的数据采集成本?

A:XRZero-G0是一套无需真实机器人的数据采集与训练框架,整合了可穿戴界面、多视角感知和自动质检等模块。实验表明,将10条无机器人演示数据与1条真实机器人数据结合,效果可媲美纯真实机器人数据集,大幅降低了采集门槛。此外,该公司还公开了超过2000小时、涵盖约3000项任务的多模态数据,进一步支持学术界和产业界的研究。

来源:Robotics and Automation News

0赞

好文章,需要你的鼓励

2026

06/17

18:11

分享

点赞

邮件订阅