虚拟仿真数据正在推动物理AI在企业环境中的发展,以AI2的MolmoBot项目为代表的倡议引领着这一趋势。
指导硬件与真实世界交互历来依赖于成本高昂且手动收集的演示数据。构建通用操作智能体的技术提供商通常将广泛的真实世界训练视为这些系统的基础。
从一些背景情况来看,像DROID这样的项目包含了在13个机构收集的76000个远程操作轨迹,大约代表350小时的人工工作量。谷歌DeepMind的RT-1需要人工操作员在17个月内收集130000个episodes。这种对专有手动数据收集的依赖推高了研究预算,并将能力集中在少数资源充足的工业实验室内。
"我们的使命是构建能够推进科学并扩展人类发现能力的AI,"AI2首席执行官Ali Farhadi表示。"机器人技术可以成为一种基础性的科学仪器,帮助研究人员更快地推进工作并探索新问题。为了实现这一目标,我们需要能够在真实世界中泛化的系统,以及全球研究社区可以共同构建的工具。展示从仿真到现实的迁移是朝着这个方向迈出的重要一步。"
Allen人工智能研究所(AI2)的研究人员提供了一种不同的经济模型,推出了MolmoBot——一个完全基于合成信息训练的开源机器人操作模型套件。通过在名为MolmoSpaces的系统内程序化生成轨迹,该团队绕过了对人工远程操作的需求。
配套的数据集MolmoBot-Data包含180万个专家操作轨迹。该数据集通过将MuJoCo物理引擎与积极的域随机化相结合而产生,改变物体、视角、光照和动力学参数。
"大多数方法试图通过添加更多真实世界数据来缩小仿真到现实的差距,"AI2 PRIOR团队主管Ranjay Krishna说道。"我们采取了相反的策略:当你大幅扩展仿真环境、物体和摄像头条件的多样性时,差距就会缩小。我们的最新进展将机器人技术的约束从收集手动演示转向设计更好的虚拟世界,这是我们可以解决的问题。"
使用100个英伟达A100 GPU,该流水线每GPU小时创建大约1024个episodes,相当于每小时墙上时钟时间产生超过130小时的机器人体验。
与真实世界数据收集相比,这代表了近四倍的数据吞吐量,通过加速部署周期直接影响项目的投资回报。
MolmoBot套件包括在两个平台上评估的三个不同政策类别:彩虹机器人RB-Y1移动操作器和Franka FR3桌面机械臂。主要模型基于Molmo2视觉语言骨干网络构建,处理多个时间步的RGB观察和语言指令来指导动作。
对于资源受限的边缘计算环境,研究人员提供了MolmoBot-SPOC,这是一个参数较少的轻量级Transformer策略。MolmoBot-Pi0使用PaliGemma骨干网络来匹配Physical Intelligence的π0模型架构,允许直接性能比较。
在物理测试中,这些策略展示了对涉及未见物体和环境的真实世界任务的零样本迁移,无需任何微调。
在桌面抓取和放置评估中,主要的MolmoBot模型达到了79.2%的成功率。这超过了在广泛真实世界演示数据上训练的π0.5模型,后者达到了39.2%的成功率。对于移动操作,这些策略成功执行了接近、抓取和在整个运动范围内拉动门的任务。
Q&A
Q1:MolmoBot是什么?它有什么特别之处?
A:MolmoBot是由AI2开发的开源机器人操作模型套件,其特别之处在于完全基于合成虚拟数据训练,而非传统的昂贵人工演示数据。它通过MolmoSpaces系统程序化生成操作轨迹,包含180万个专家操作轨迹的数据集。
Q2:MolmoBot的性能表现如何?
A:在物理测试中,MolmoBot展示了出色的零样本迁移能力,无需微调就能处理未见物体和环境。在桌面抓取任务中,主要模型达到79.2%成功率,显著超过基于真实数据训练的π0.5模型的39.2%成功率。
Q3:虚拟仿真数据相比真实数据有什么优势?
A:虚拟仿真数据具有成本效益和规模优势。AI2的方法代表近四倍的数据吞吐量,每GPU小时产生1024个episodes,相当于每小时产生130小时机器人体验,大大降低了研究成本并加速了部署周期。
好文章,需要你的鼓励
苹果在WWDC 2026上发布iOS 27后,随即推出了开发者测试版。大多数iPhone用户将于今秋免费升级至iOS 27,但具体情况因运营商、地区及法规而异。目前,开发者已可在iPhone上安装测试版,公开测试版将于下月跟进。安装前需注意:备份设备、避免在主力机上安装,且测试版可能存在较多漏洞。兼容机型要求为搭载iOS 17或更高版本、且比iPhone 11更新的机型。
上海人工智能实验室提出ThoughtFold框架,通过内省式冗余识别与精准偏好学习,将AI推理链中的废话步骤"折叠"掉,在保持准确率的前提下将推理用词量减少约56%。
苹果在WWDC 2026上正式宣布,下一版macOS系统命名为"Golden Gate(金门)"。此次更新重点聚焦于性能与稳定性提升,而非大幅视觉革新,包括更流畅的动画、重建的Spotlight搜索以及统一的应用工具栏。Liquid Glass设计保留,但新增透明度调节滑块。支持M系列芯片的Mac均可升级,搭载Intel处理器的旧款Mac将不再支持。Rosetta 2将在Golden Gate后停止支持。开发者测试版现已发布,正式版预计9月推出。
AAD-1由上交大、蚂蚁集团等机构联合提出,通过双向判别器与三阶段训练,实现了单步自回归视频生成,有效解决了动作崩溃与长期漂移问题。