X Square Robot开源三项技术，补齐具身AI的"大脑"缺口

中国机器人企业X Square Robot正专注于解决具身AI最核心的智能瓶颈。该公司近期连续开源三项技术：视觉-语言-动作模型Wall-OSS-0.5、用于理解物理事件的世界动作模型WALL-WM，以及低成本数据采集框架XRZero-G0。其中XRZero-G0通过结合少量真实机器人数据与大量无机器人演示数据，大幅降低训练成本，并已开放逾2000小时多模态数据集。创始人王倩表示，具身智能的"顿悟时刻"或许比人们预想的更快到来。

当全球各地的机器人公司争相展示人形机器人做后空翻、跑障碍赛、登台表演时，一家中国企业正在追求一个更难实现、也可能更具深远意义的目标：让机器人在人们真实生活和工作的复杂、不可预测的环境中自主运作。

X Square Robot创始人兼CEO王倩表示，机器人行业的硬件基础已基本到位。人形机器人的运动能力、灵巧手和力控系统均已快速迭代，剩下的核心挑战在于智能本身。

"硬件基本已经就绪，"王倩说，"真正的瓶颈在于'大脑'。"

为填补这一空白，X Square Robot在过去数周内相继开源了三项技术：

Wall-OSS-0.5，一个视觉-语言-动作（VLA）模型；

WALL-WM，一个用于理解物理事件的世界动作模型；

XRZero-G0，一个无需真实机器人即可完成数据采集与训练的框架，旨在大幅降低数据成本。

VLA模型已成为具身AI领域的主流技术路径，但一个根本性问题始终悬而未决：预训练本身能否让机器人习得有用技能，还是仅仅为后续任务微调做铺垫？

Wall-OSS-0.5正是为回答这一问题而设计的。X Square Robot没有评估微调后的模型，而是将预训练模型直接部署到实体机器人上，并在17项真实任务中进行测试。

该系统在物体分拣、套环堆叠，乃至柔性物体操控等任务中均展现出优异的零样本性能。

模型的核心是一套"梯度桥接"训练框架。Wall-OSS-0.5不再将感知与控制拆分为独立模块，而是将机器人动作转化为动作Token，在预训练过程中与语言和视觉表征共同学习。这使感知、语言理解与动作生成能够在统一模型内协同演化。

研究还发现，动作训练不仅提升了操控能力，还增强了视觉定位性能，这表明物理交互可以加深模型对世界的理解。

尽管Wall-OSS-0.5展现了VLA预训练的潜力，X Square Robot认为单纯的模仿学习还远远不够。

大多数VLA系统只学习动作轨迹，并不真正理解物理因果关系。它们能够重复训练时见过的行为，但面对陌生情境时往往束手无策。

为解决这一局限，该公司推出了WALL-WM世界动作模型，将学习重心从固定动作序列转向有意义的物理事件，如伸手、抓取、抬起和放置等。

与将感知、语言和控制分开处理的传统架构不同，WALL-WM将视觉观测、语言描述和动作围绕真实世界事件进行统一对齐。其目标是让机器人不仅能执行动作，还能预测结果、推理物理变化，并在计划出现偏差时灵活调整。

X Square Robot表示，这一方法代表着向"能从经验中学习、持续深化对物理世界理解"的机器人迈出了重要一步。

如果说世界模型是大脑，那么数据就是燃料。

采集高质量的机器人演示数据成本高昂、耗时费力，且难以规模化。X Square Robot给出的答案是XRZero-G0——一套无需真实机器人即可完成数据采集与训练的软硬件一体化框架。

该系统整合了可穿戴交互界面、多视角感知、自动质量检测和真实机器人验证，在提升数据质量的同时大幅降低采集成本。

通过对照实验，X Square Robot发现，将10条无机器人演示数据与1条真实机器人演示数据相结合，其效果可媲美完全由真实机器人数据构建的数据集。

该公司还公开发布了超过2000小时的多模态数据，涵盖约3000项任务，以支持具身AI领域的广泛研究。

三项技术的联合发布，共同应对了具身AI面临的若干核心挑战。

Wall-OSS-0.5探索预训练能否直接产生可迁移的机器人技能；WALL-WM研究机器人如何对物理世界进行建模与推理；XRZero-G0则攻克了支撑两者的数据瓶颈问题。

三者合一，构成了一套覆盖数据、世界模型与机器人基础模型的全栈框架。

在CEO王倩看来，行业的关键转折点或许比多数人预期的更快到来。摆在眼前的挑战，已不再是教会机器人如何移动，而是教会它们如何理解所处的世界。

"具身智能的'顿悟时刻'，"她说，"可能比人们想象的近得多。"

Q&A

Q1：Wall-OSS-0.5是什么模型？它的核心技术是什么？

A：Wall-OSS-0.5是X Square Robot开源的一个视觉-语言-动作（VLA）模型。其核心是"梯度桥接"训练框架，将机器人动作转化为动作Token，在预训练阶段与语言和视觉表征共同学习，使感知、语言理解和动作生成在同一模型内协同完成。该模型在17项真实任务中直接以预训练状态部署，在物体分拣、套环堆叠和柔性物体操控等任务上均表现出色。

Q2：WALL-WM世界动作模型与传统VLA系统有什么区别？

A：传统VLA系统主要学习固定的动作轨迹，缺乏对物理因果关系的理解，遇到陌生情境容易失效。WALL-WM将学习重心转向真实物理事件（如伸手、抓取、抬起、放置），并将视觉观测、语言描述和动作围绕这些事件统一对齐，使机器人能够预测动作结果、推理物理变化，并在计划失败时灵活应对，而不仅仅是重复训练时的行为。

Q3：XRZero-G0如何降低具身AI的数据采集成本？

A：XRZero-G0是一套无需真实机器人的数据采集与训练框架，整合了可穿戴界面、多视角感知和自动质检等模块。实验表明，将10条无机器人演示数据与1条真实机器人数据结合，效果可媲美纯真实机器人数据集，大幅降低了采集门槛。此外，该公司还公开了超过2000小时、涵盖约3000项任务的多模态数据，进一步支持学术界和产业界的研究。

来源：Robotics and Automation News

0赞

好文章，需要你的鼓励

X Square Robot开源三项技术，补齐具身AI的"大脑"缺口

来源：Robotics and Automation News

2026

06/17

18:11

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

TARS携DexHand平台亮相ICRA 2026机器人大会

这家初创公司提供免费上门保洁服务，条件是全程录像用于训练机器人

Rotaku推出Domo人形机器人平台，开发者版起售价2999美元

具身AI走出实验室，规模化挑战仍待破解

人形机器人ROI路径渐明，商业化成功关键在于有效产出

仿人机器人2026-2036：技术、市场与机遇全景解析

谷歌研究院：以开放科学与全球合作推动科学突破

Cloudflare推出EmDash内容管理系统挑战WordPress主导地位

谷歌发布企业级开源AI模型Gemma 4

Euro-Office：欧洲打造开源办公套件对抗微软Office

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会