总部位于西雅图的人工智能研究机构Ai2(艾伦人工智能研究所)近日正式发布了新一代开源基础AI模型MolmoAct 2,旨在让机器人具备在真实环境中独立运作的能力。
去年8月,Ai2发布了首个版本MolmoAct——这是该公司推出的首款动作推理模型,属于一种全新类别的AI模型,能够让机器在执行动作之前对三维环境进行推理分析。Ai2表示,MolmoAct 2在性能上大幅超越市场上的商业机器人模型,并且处理各类现实任务的速度比前代提升了最高37倍。
除MolmoAct 2之外,Ai2还发布了一个名为MolmoAct 2-Bimanual YAM的大规模数据集。该数据集被设计为迄今为止最大的开源双臂操作示范数据源,包含超过720小时的训练数据。
据Ai2介绍,初代MolmoAct基于22小时的精选内部数据,历时三个月完成训练,并由此证明了开放式推理架构在行业标准基准测试上能够超越体量更大的闭源模型。MolmoAct 2在此基础上进一步演进,专为真实环境应用场景而构建。
在技术架构层面,Ai2对MolmoAct 2进行了全面重构。该模型并非简单延伸自Molmo 2(公司的视频理解AI模型),而是基于Molmo 2-ER——一种专为具身推理设计的基础模型变体——重新构建。训练数据涵盖超过300万个样本,包括基于图像的目标定位、物体检测、抽象空间推理、多图推理,以及基于图像和视频的空间问答任务。
这一设计使新模型能够通过内置的专用动作模块,结合三维推理生成机器人动作指令。MolmoAct 2-Bimanual YAM数据集的构建为上述过程奠定了重要基础。"双臂"指的是两只机械臂协同完成任务,例如折叠毛巾、扫描商品、为智能手机充电或清理桌面等。该数据集超过700小时的样本量,是目前业内规模最大的同类数据集。
Ai2还在此基础上补充混合了多种机器人数据集,使MolmoAct 2能够接触到不同类型的机械臂、摄像头配置、控制方案和任务风格。研究团队同时对机器人数据中的语言指令进行了优化,通过减少重复内容和低质量标注来提升指令多样性。为此,他们对机器人数据库进行了重新标注,将唯一标签数量从7.1万条增加至约14.6万条。
MolmoAct 2的现实应用测试
机器人AI模型的真正考验在于现实场景中的表现。为此,Ai2与斯坦福大学医学院Cong实验室开展合作试点,该实验室由Le Cong教授领导,专注于遗传学湿实验室研究。
Cong实验室的研究涉及CRISPR基因编辑技术。这一基因编辑过程需要大量精细的台架操作,包括在不同工作台之间移动、移液和高精度操作设备。研究人员指出,一旦机器人出现偏差,错误会迅速累积,可能导致整个实验流程失败。
斯坦福团队在测试了多个针对该工作流进行微调的通用AI模型后发现,MolmoAct 2在辅助湿实验室操作方面展现出较强潜力。
Ai2还对MolmoAct 2进行了压力测试,测试内容包括:指令重新表述、物体位置变化、干扰物引入以及物体替换等情境,以此深入了解模型应对动态变化环境的能力。
Ai2承认,新模型虽展现出良好前景,但目前仍存在一定局限性。与其他机器人系统类似,当夹持器遮挡摄像头视野、机械臂响应速度滞后于控制系统,或任务需要更精细的操作精度时,模型表现仍有不足。
Ai2表示,克服上述挑战将有助于为整个机器人AI领域构建共同的技术基础。开放模型允许研究人员深入审查其内部机制,结合可供二次开发的数据集,Ai2还将于近期发布可适配不同机器和应用场景的训练代码。
Q&A
Q1:MolmoAct 2和上一代MolmoAct相比有哪些提升?
A:MolmoAct 2对整体架构进行了全面重构,基于具身推理专用模型Molmo 2-ER构建,训练数据超过300万个样本。相比初代,MolmoAct 2在业界标准基准测试中大幅超越商业机器人模型,处理现实任务的速度最高提升37倍,并支持双臂协作等复杂操作场景。
Q2:MolmoAct 2-Bimanual YAM数据集有什么特别之处?
A:MolmoAct 2-Bimanual YAM是目前业内规模最大的开源双臂操作示范数据集,包含超过720小时的训练数据。数据集聚焦于两只机械臂协同完成的任务,如折叠毛巾、扫描商品、为手机充电等,同时还补充了多种不同机械臂和摄像头配置的数据,以提升模型的泛化能力。
Q3:MolmoAct 2目前有哪些不足?
A:MolmoAct 2目前仍存在几项局限:当夹持器遮挡摄像头视野时容易出错;机械臂响应速度有时跟不上控制系统节奏;对于需要高精度操控的任务表现欠佳。Ai2表示将持续攻克这些挑战,并计划开放训练代码,供研究人员适配不同机器和使用场景。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。