Ai2发布MolmoAct 2,大幅提升机器人现实世界操作能力

西雅图人工智能研究机构Ai2发布新一代开源基础AI模型MolmoAct 2,专为机器人现实环境操作而设计。该模型性能大幅超越市场上的专有机器人模型,任务处理速度较前代提升最高37倍。Ai2同步发布了迄今最大的开源双臂操作数据集,包含逾720小时训练数据。MolmoAct 2已在斯坦福大学医学院CRISPR实验室完成真实环境测试,展现出协助湿实验室操作的强大潜力。

总部位于西雅图的人工智能研究机构Ai2(艾伦人工智能研究所)近日正式发布了新一代开源基础AI模型MolmoAct 2,旨在让机器人具备在真实环境中独立运作的能力。

去年8月,Ai2发布了首个版本MolmoAct——这是该公司推出的首款动作推理模型,属于一种全新类别的AI模型,能够让机器在执行动作之前对三维环境进行推理分析。Ai2表示,MolmoAct 2在性能上大幅超越市场上的商业机器人模型,并且处理各类现实任务的速度比前代提升了最高37倍。

除MolmoAct 2之外,Ai2还发布了一个名为MolmoAct 2-Bimanual YAM的大规模数据集。该数据集被设计为迄今为止最大的开源双臂操作示范数据源,包含超过720小时的训练数据。

据Ai2介绍,初代MolmoAct基于22小时的精选内部数据,历时三个月完成训练,并由此证明了开放式推理架构在行业标准基准测试上能够超越体量更大的闭源模型。MolmoAct 2在此基础上进一步演进,专为真实环境应用场景而构建。

在技术架构层面,Ai2对MolmoAct 2进行了全面重构。该模型并非简单延伸自Molmo 2(公司的视频理解AI模型),而是基于Molmo 2-ER——一种专为具身推理设计的基础模型变体——重新构建。训练数据涵盖超过300万个样本,包括基于图像的目标定位、物体检测、抽象空间推理、多图推理,以及基于图像和视频的空间问答任务。

这一设计使新模型能够通过内置的专用动作模块,结合三维推理生成机器人动作指令。MolmoAct 2-Bimanual YAM数据集的构建为上述过程奠定了重要基础。"双臂"指的是两只机械臂协同完成任务,例如折叠毛巾、扫描商品、为智能手机充电或清理桌面等。该数据集超过700小时的样本量,是目前业内规模最大的同类数据集。

Ai2还在此基础上补充混合了多种机器人数据集,使MolmoAct 2能够接触到不同类型的机械臂、摄像头配置、控制方案和任务风格。研究团队同时对机器人数据中的语言指令进行了优化,通过减少重复内容和低质量标注来提升指令多样性。为此,他们对机器人数据库进行了重新标注,将唯一标签数量从7.1万条增加至约14.6万条。

MolmoAct 2的现实应用测试

机器人AI模型的真正考验在于现实场景中的表现。为此,Ai2与斯坦福大学医学院Cong实验室开展合作试点,该实验室由Le Cong教授领导,专注于遗传学湿实验室研究。

Cong实验室的研究涉及CRISPR基因编辑技术。这一基因编辑过程需要大量精细的台架操作,包括在不同工作台之间移动、移液和高精度操作设备。研究人员指出,一旦机器人出现偏差,错误会迅速累积,可能导致整个实验流程失败。

斯坦福团队在测试了多个针对该工作流进行微调的通用AI模型后发现,MolmoAct 2在辅助湿实验室操作方面展现出较强潜力。

Ai2还对MolmoAct 2进行了压力测试,测试内容包括:指令重新表述、物体位置变化、干扰物引入以及物体替换等情境,以此深入了解模型应对动态变化环境的能力。

Ai2承认,新模型虽展现出良好前景,但目前仍存在一定局限性。与其他机器人系统类似,当夹持器遮挡摄像头视野、机械臂响应速度滞后于控制系统,或任务需要更精细的操作精度时,模型表现仍有不足。

Ai2表示,克服上述挑战将有助于为整个机器人AI领域构建共同的技术基础。开放模型允许研究人员深入审查其内部机制,结合可供二次开发的数据集,Ai2还将于近期发布可适配不同机器和应用场景的训练代码。

Q&A

Q1:MolmoAct 2和上一代MolmoAct相比有哪些提升?

A:MolmoAct 2对整体架构进行了全面重构,基于具身推理专用模型Molmo 2-ER构建,训练数据超过300万个样本。相比初代,MolmoAct 2在业界标准基准测试中大幅超越商业机器人模型,处理现实任务的速度最高提升37倍,并支持双臂协作等复杂操作场景。

Q2:MolmoAct 2-Bimanual YAM数据集有什么特别之处?

A:MolmoAct 2-Bimanual YAM是目前业内规模最大的开源双臂操作示范数据集,包含超过720小时的训练数据。数据集聚焦于两只机械臂协同完成的任务,如折叠毛巾、扫描商品、为手机充电等,同时还补充了多种不同机械臂和摄像头配置的数据,以提升模型的泛化能力。

Q3:MolmoAct 2目前有哪些不足?

A:MolmoAct 2目前仍存在几项局限:当夹持器遮挡摄像头视野时容易出错;机械臂响应速度有时跟不上控制系统节奏;对于需要高精度操控的任务表现欠佳。Ai2表示将持续攻克这些挑战,并计划开放训练代码,供研究人员适配不同机器和使用场景。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

05/08

13:03

分享

点赞

邮件订阅