Ai2推出MolmoAct模型：在机器人AI领域挑战英伟达和谷歌

AI2发布开源MolmoAct 7B模型，具备三维空间推理能力，挑战英伟达和谷歌在物理AI领域的地位。该模型能让机器人理解物理世界、规划空间占用并执行动作，任务成功率达72.1%，超越谷歌、微软和英伟达的模型。与传统视觉-语言-动作模型不同，MolmoAct通过空间感知令牌实现真正的3D理解，可适应不同机器人形态。

物理AI是机器人技术与基础模型结合的快速发展领域，英伟达、谷歌和Meta等公司正在发布研究成果，探索将大语言模型与机器人技术融合。

艾伦人工智能研究所（Ai2）发布了最新研究成果MolmoAct 7B，这是一个全新的开源模型，让机器人能够"在空间中推理"，旨在物理AI领域挑战英伟达和谷歌。MolmoAct基于Ai2的开源项目Molmo构建，能够进行三维"思考"，同时还发布了其训练数据。该模型采用Apache 2.0许可证，数据集则使用CC BY-4.0许可证。

Ai2将MolmoAct归类为动作推理模型，即基础模型在物理三维空间中对动作进行推理。这意味着MolmoAct能够运用推理能力理解物理世界，规划空间占用方式，然后执行相应动作。

**空间推理的独特优势**

Ai2表示："与传统的视觉-语言-动作（VLA）模型相比，MolmoAct具备三维空间推理能力。大多数机器人模型都是VLA，无法在空间中思考或推理，但MolmoAct具备这种能力，从架构角度来看更加高效且具有更强的泛化能力。"

由于机器人存在于物理世界中，Ai2声称MolmoAct能帮助机器人感知周围环境并做出更好的交互决策。该公司表示："MolmoAct可以应用于任何需要机器对物理环境进行推理的场景。我们主要考虑家庭环境，因为那是机器人技术面临的最大挑战，环境不规则且不断变化，但MolmoAct可以应用于任何地方。"

**技术实现原理**

MolmoAct通过输出"空间定位感知Token"来理解物理世界，这些Token是使用向量量化变分自编码器预训练和提取的，该模型能将视频等数据输入转换为Token。公司表示，这些Token与VLA使用的Token不同，它们不是文本输入。

这些Token使MolmoAct能够获得空间理解能力并编码几何结构，通过它们模型可以估算物体间的距离。一旦获得距离估算，MolmoAct就会预测一系列"图像空间"路径点，即可以设定路径的区域点。之后，模型开始输出具体动作，如将机械臂下降几英寸或伸展等。

Ai2的研究人员表示，他们能够让模型适应不同的具体实现形式（如机械臂或人形机器人），"只需最少的微调"。

**性能表现突出**

Ai2进行的基准测试显示，MolmoAct 7B的任务成功率达到72.1%，超越了谷歌、微软和英伟达的模型。

俄勒冈州立大学工程学院教授Alan Fern表示，Ai2的研究"代表了在增强视觉语言模型用于机器人技术和物理推理方面的自然进展"。虽然不是革命性的，但这是开发更强大的三维物理推理模型的重要一步。

初创公司Gather AI联合创始人Daniel Maturana赞扬了数据的开放性，指出"这是个好消息，因为开发和训练这些模型成本高昂，这为其他学术实验室甚至专业爱好者提供了坚实的基础"。

**物理AI发展趋势**

创造更智能或至少更具空间感知能力的机器人一直是许多开发者和计算机科学家的长期梦想。在大语言模型出现之前，科学家必须编程每一个动作，工作量巨大且机器人动作类型灵活性有限。现在，基于大语言模型的方法允许机器人根据交互对象确定下一步可能的动作。

谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理，确定实现目标所需的动作序列。Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控。Hugging Face发布了299美元的桌面机器人，致力于机器人开发的民主化。英伟达宣称物理AI是下一个重大趋势，发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练。

Fern表示，尽管演示仍然有限，但对物理AI的兴趣正在增加。实现通用物理智能的目标正变得更容易实现，这将消除为机器人单独编程动作的需要。

Q&A

Q1：MolmoAct与传统机器人模型有什么区别？

A：MolmoAct具备三维空间推理能力，而传统的视觉-语言-动作（VLA）模型无法在空间中思考或推理。MolmoAct能够理解物理世界、规划空间占用并执行相应动作，从架构角度来看更加高效且具有更强的泛化能力。

Q2：MolmoAct的技术原理是什么？

A：MolmoAct通过输出"空间定位感知Token"来理解物理世界，这些Token使用向量量化变分自编码器预训练提取。模型能获得空间理解能力并编码几何结构，估算物体间距离，预测路径点，然后输出具体动作指令。

Q3：MolmoAct的性能表现如何？

A：基准测试显示，MolmoAct 7B的任务成功率达到72.1%，超越了谷歌、微软和英伟达的模型。研究人员表示，模型能够适应不同的具体实现形式，如机械臂或人形机器人，只需最少的微调。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Ai2推出MolmoAct模型：在机器人AI领域挑战英伟达和谷歌

来源：VentureBeat

2025

08/14

08:32

分享

点赞

Cloudera扩展AI生态系统，助力企业向AI原生转型

Cloudera凭借安全、可控且高性能的统一数据平台，加速AI与数据分析

Cloudera调查发现：96%的企业已将AI融入核心业务，AI已从竞争优势转为必备技术

Cloudera携手Dell ObjectScale，为企业提供新一代私有AI平台

云栖大会上，感受AI汽车的"乐与路"

CISA要求联邦机构修补思科防火墙设备零日漏洞

独立应用推荐：TimeWave帮你创建流动计时器，设计简洁实用

亚马逊秋季硬件发布会预期：智能家居新品即将亮相

推动AI繁荣的数十亿美元基础设施交易内幕

AI改造传统服务业或比风投想象的更困难

加拿大推出首个主权AI工厂，由TELUS主导建设

Mac用户终于开始重视恶意软件威胁

李飞飞挑战硅谷对AGI的痴迷观念

研究发现：新版大语言模型虽基准测试分数更高，但代码漏洞更严重

如何为AI探索构建数据基础设施

名企齐聚！阿里云携手牧原、UU跑腿、新开普等豫企共绘数智未来

Liquid AI推出LFM2-VL模型，让智能手机拥有快速视觉AI能力

Google Photos经典搜索功能快速恢复方法：替代Ask Photos生成式AI搜索

SiMa.ai发布新一代物理AI系统级芯片正式投产

Ai2发布开源AI模型，让机器人在3D空间"规划"动作

曾经的小型研究实验室如何助力英伟达成为万亿美元公司

VS Code发布聊天检查点功能预防AI对话失误

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: