Ai2发布面向真实环境的开源机器人基础模型MolmoAct 2

艾伦人工智能研究所(Ai2)发布开源机器人基础模型MolmoAct 2,旨在提升机器人在真实环境中执行物理任务的能力。该模型采用"动作推理"架构,支持双臂操作、物体分拣等多种任务,推理速度较前代大幅提升。Ai2同步发布迄今最大规模的开源双臂操作数据集,斯坦福医学院已将其应用于CRISPR基因编辑实验室的自动化流程中。

艾伦人工智能研究院(Ai2)近日发布了MolmoAct 2,这是一款开源机器人基础模型,旨在提升机器人在真实物理环境中执行任务的能力。随着研究人员持续突破高度受控的实验室演示场景,业界正朝着更具适应性的自动化系统迈进。

这款由西雅图AI研究机构发布的新模型,被定位为其前代MolmoAct系统的重大升级版本,也折射出业界在开发更通用机器人AI方面的整体趋势——这类系统能够在无需大量特定任务编程的情况下,适应不断变化的环境。

Ai2将MolmoAct 2描述为"面向真实世界运作机器人的开放基础",并指出当前许多机器人系统仍然过于脆弱,且高度依赖针对特定狭窄应用场景的调优。

"AI已经能为我们撰写邮件、调试代码、预订机票。但在物理世界中,它依然举步维艰,"Ai2在发布公告的博客文章中写道。

"让机器人可靠地完成装碗碟或在实验室准备试管样本这类任务,对大多数系统而言仍是连续运行数小时都难以做到的事情。"

与许多依赖固定程序或大量针对单一任务调优的机器人模型不同,MolmoAct 2采用了Ai2所称的"动作推理模型"架构,使系统能够在执行动作前对三维环境进行推理分析。

据官方介绍,该模型能够"开箱即用"地执行多种操作任务,包括双臂协作动作,如折叠毛巾、物品分拣、托盘搬运和清理桌面等。

Ai2表示,与原版MolmoAct系统相比,新模型的推理速度也有显著提升,从而实现了更灵敏的机器人控制响应。

"在基础模型中,单次动作调用约耗时180毫秒,启用自适应深度推理的MolmoAct 2约耗时790毫秒,而MolmoAct的耗时则高达6700毫秒,"官方表示。

Ai2认为,这一速度提升让机器人的行为更接近实时响应,而非动作之间存在明显延迟。

此次发布包含完整的模型权重、数据集以及一个开源机器人动作Token器,体现了Ai2在机器人领域推进开放AI开发的一贯理念——而该领域的许多领先系统至今仍以专有形式存在。

除模型本身外,Ai2还同步发布了MolmoAct 2-Bimanual YAM数据集,并将其描述为"迄今发布的最大规模开源双臂桌面操作机器人数据集",包含超过720小时的机器人演示数据。

这些演示涵盖多种双臂协调任务,例如折叠毛巾、扫描商品、为智能手机充电以及清理桌面。

Ai2表示,该模型在模拟环境和真实机器人评估中均表现出色。

在使用Franka机械臂进行的测试中,MolmoAct 2据报在多项操作任务上取得了较高成功率,包括将物体移入碗中、将移液管放入托盘以及将物体插入狭小空间等。

此外,该公司还表示,在Cortex AI开展的第三方评估中,该系统的表现超越了多款竞争机器人模型。

此次发布中,尤为值得关注的是其在科学研究环境中的早期应用。

Ai2透露,斯坦福医学院的研究人员正在一个由孔乐教授主导的"自驱动湿实验室"项目中,试点将MolmoAct 2应用于CRISPR基因编辑工作流程。

据Ai2介绍,该机器人系统被用于自动化执行重复性实验室操作任务,例如在各工作站之间传递样本、操作台式设备等。

Ai2表示,这项工作凸显了机器人基础模型通过自动化重复性实验室操作来加速科学研究的潜力。

"在对多款针对其工作流程进行微调的通用机器人模型进行测试后,斯坦福团队发现,MolmoAct 2在优化湿实验室关键环节、进而加速科学发现方面展现出强大潜力,"Ai2表示。

尽管取得了上述进展,Ai2也坦承该系统目前仍存在一定局限性。

官方表示,MolmoAct 2目前采用批量规划动作的方式,而非实时持续调整运动轨迹,这在遭遇突发事件时可能会降低系统的响应能力。

此外,该模型目前仅限于其接受过专项训练的机器人平台,若要部署于差异显著的硬件配置上,则需要进行额外的训练工作。

尽管如此,此次发布仍折射出开放机器人基础模型领域不断增长的发展势头,研究人员正努力构建能够在真实环境中更灵活运作的系统。

"对任何机器人模型而言,真正的考验在于它能否在受控环境之外正常运作——在那里,指令会有所不同,而小错误也可能随时间不断累积,"Ai2表示。

MolmoAct 2的模型权重、数据集、技术报告及代码现已通过Ai2研究平台向公众开放。

Q&A

Q1:MolmoAct 2是什么?它有哪些核心能力?

A:MolmoAct 2是由艾伦人工智能研究院(Ai2)发布的开源机器人基础模型,采用"动作推理模型"架构,能够在执行动作前对三维环境进行推理。它支持开箱即用地执行折叠毛巾、物品分拣、托盘搬运等双臂协作任务,推理速度相比前代大幅提升,单次动作调用仅需约790毫秒,是前代的近九分之一。

Q2:MolmoAct 2与其他机器人模型相比有什么优势?

A:MolmoAct 2的主要优势体现在三个方面:一是速度更快,推理时延从前代的6700毫秒大幅降至790毫秒;二是开放性强,完整发布了模型权重、数据集和开源动作Token器;三是配套了目前规模最大的开源双臂桌面操作数据集,包含超过720小时的演示数据。在第三方机构Cortex AI的评估中,其表现也优于多款竞争模型。

Q3:MolmoAct 2目前有哪些已知局限性?

A:MolmoAct 2目前存在两项主要局限:第一,它采用批量规划动作的方式,无法实时持续调整运动,在遭遇突发状况时响应能力有限;第二,该模型目前仅支持其接受过专项训练的机器人平台,若要在差异较大的硬件配置上部署,需要进行额外的针对性训练。

来源:Robotics and Automation News

0赞

好文章,需要你的鼓励

2026

05/18

17:16

分享

点赞

邮件订阅