物理AI是机器人技术与基础模型结合的快速发展领域,英伟达、谷歌和Meta等公司正在发布研究成果,探索将大语言模型与机器人技术融合。
艾伦人工智能研究所(Ai2)发布了最新研究成果MolmoAct 7B,这是一个全新的开源模型,让机器人能够"在空间中推理",旨在物理AI领域挑战英伟达和谷歌。MolmoAct基于Ai2的开源项目Molmo构建,能够进行三维"思考",同时还发布了其训练数据。该模型采用Apache 2.0许可证,数据集则使用CC BY-4.0许可证。
Ai2将MolmoAct归类为动作推理模型,即基础模型在物理三维空间中对动作进行推理。这意味着MolmoAct能够运用推理能力理解物理世界,规划空间占用方式,然后执行相应动作。
**空间推理的独特优势**
Ai2表示:"与传统的视觉-语言-动作(VLA)模型相比,MolmoAct具备三维空间推理能力。大多数机器人模型都是VLA,无法在空间中思考或推理,但MolmoAct具备这种能力,从架构角度来看更加高效且具有更强的泛化能力。"
由于机器人存在于物理世界中,Ai2声称MolmoAct能帮助机器人感知周围环境并做出更好的交互决策。该公司表示:"MolmoAct可以应用于任何需要机器对物理环境进行推理的场景。我们主要考虑家庭环境,因为那是机器人技术面临的最大挑战,环境不规则且不断变化,但MolmoAct可以应用于任何地方。"
**技术实现原理**
MolmoAct通过输出"空间定位感知Token"来理解物理世界,这些Token是使用向量量化变分自编码器预训练和提取的,该模型能将视频等数据输入转换为Token。公司表示,这些Token与VLA使用的Token不同,它们不是文本输入。
这些Token使MolmoAct能够获得空间理解能力并编码几何结构,通过它们模型可以估算物体间的距离。一旦获得距离估算,MolmoAct就会预测一系列"图像空间"路径点,即可以设定路径的区域点。之后,模型开始输出具体动作,如将机械臂下降几英寸或伸展等。
Ai2的研究人员表示,他们能够让模型适应不同的具体实现形式(如机械臂或人形机器人),"只需最少的微调"。
**性能表现突出**
Ai2进行的基准测试显示,MolmoAct 7B的任务成功率达到72.1%,超越了谷歌、微软和英伟达的模型。
俄勒冈州立大学工程学院教授Alan Fern表示,Ai2的研究"代表了在增强视觉语言模型用于机器人技术和物理推理方面的自然进展"。虽然不是革命性的,但这是开发更强大的三维物理推理模型的重要一步。
初创公司Gather AI联合创始人Daniel Maturana赞扬了数据的开放性,指出"这是个好消息,因为开发和训练这些模型成本高昂,这为其他学术实验室甚至专业爱好者提供了坚实的基础"。
**物理AI发展趋势**
创造更智能或至少更具空间感知能力的机器人一直是许多开发者和计算机科学家的长期梦想。在大语言模型出现之前,科学家必须编程每一个动作,工作量巨大且机器人动作类型灵活性有限。现在,基于大语言模型的方法允许机器人根据交互对象确定下一步可能的动作。
谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理,确定实现目标所需的动作序列。Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控。Hugging Face发布了299美元的桌面机器人,致力于机器人开发的民主化。英伟达宣称物理AI是下一个重大趋势,发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练。
Fern表示,尽管演示仍然有限,但对物理AI的兴趣正在增加。实现通用物理智能的目标正变得更容易实现,这将消除为机器人单独编程动作的需要。
Q&A
Q1:MolmoAct与传统机器人模型有什么区别?
A:MolmoAct具备三维空间推理能力,而传统的视觉-语言-动作(VLA)模型无法在空间中思考或推理。MolmoAct能够理解物理世界、规划空间占用并执行相应动作,从架构角度来看更加高效且具有更强的泛化能力。
Q2:MolmoAct的技术原理是什么?
A:MolmoAct通过输出"空间定位感知Token"来理解物理世界,这些Token使用向量量化变分自编码器预训练提取。模型能获得空间理解能力并编码几何结构,估算物体间距离,预测路径点,然后输出具体动作指令。
Q3:MolmoAct的性能表现如何?
A:基准测试显示,MolmoAct 7B的任务成功率达到72.1%,超越了谷歌、微软和英伟达的模型。研究人员表示,模型能够适应不同的具体实现形式,如机械臂或人形机器人,只需最少的微调。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。