物理AI是机器人技术与基础模型结合的快速发展领域,英伟达、谷歌和Meta等公司正在发布研究成果,探索将大语言模型与机器人技术融合。
艾伦人工智能研究所(Ai2)发布了最新研究成果MolmoAct 7B,这是一个全新的开源模型,让机器人能够"在空间中推理",旨在物理AI领域挑战英伟达和谷歌。MolmoAct基于Ai2的开源项目Molmo构建,能够进行三维"思考",同时还发布了其训练数据。该模型采用Apache 2.0许可证,数据集则使用CC BY-4.0许可证。
Ai2将MolmoAct归类为动作推理模型,即基础模型在物理三维空间中对动作进行推理。这意味着MolmoAct能够运用推理能力理解物理世界,规划空间占用方式,然后执行相应动作。
**空间推理的独特优势**
Ai2表示:"与传统的视觉-语言-动作(VLA)模型相比,MolmoAct具备三维空间推理能力。大多数机器人模型都是VLA,无法在空间中思考或推理,但MolmoAct具备这种能力,从架构角度来看更加高效且具有更强的泛化能力。"
由于机器人存在于物理世界中,Ai2声称MolmoAct能帮助机器人感知周围环境并做出更好的交互决策。该公司表示:"MolmoAct可以应用于任何需要机器对物理环境进行推理的场景。我们主要考虑家庭环境,因为那是机器人技术面临的最大挑战,环境不规则且不断变化,但MolmoAct可以应用于任何地方。"
**技术实现原理**
MolmoAct通过输出"空间定位感知Token"来理解物理世界,这些Token是使用向量量化变分自编码器预训练和提取的,该模型能将视频等数据输入转换为Token。公司表示,这些Token与VLA使用的Token不同,它们不是文本输入。
这些Token使MolmoAct能够获得空间理解能力并编码几何结构,通过它们模型可以估算物体间的距离。一旦获得距离估算,MolmoAct就会预测一系列"图像空间"路径点,即可以设定路径的区域点。之后,模型开始输出具体动作,如将机械臂下降几英寸或伸展等。
Ai2的研究人员表示,他们能够让模型适应不同的具体实现形式(如机械臂或人形机器人),"只需最少的微调"。
**性能表现突出**
Ai2进行的基准测试显示,MolmoAct 7B的任务成功率达到72.1%,超越了谷歌、微软和英伟达的模型。
俄勒冈州立大学工程学院教授Alan Fern表示,Ai2的研究"代表了在增强视觉语言模型用于机器人技术和物理推理方面的自然进展"。虽然不是革命性的,但这是开发更强大的三维物理推理模型的重要一步。
初创公司Gather AI联合创始人Daniel Maturana赞扬了数据的开放性,指出"这是个好消息,因为开发和训练这些模型成本高昂,这为其他学术实验室甚至专业爱好者提供了坚实的基础"。
**物理AI发展趋势**
创造更智能或至少更具空间感知能力的机器人一直是许多开发者和计算机科学家的长期梦想。在大语言模型出现之前,科学家必须编程每一个动作,工作量巨大且机器人动作类型灵活性有限。现在,基于大语言模型的方法允许机器人根据交互对象确定下一步可能的动作。
谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理,确定实现目标所需的动作序列。Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控。Hugging Face发布了299美元的桌面机器人,致力于机器人开发的民主化。英伟达宣称物理AI是下一个重大趋势,发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练。
Fern表示,尽管演示仍然有限,但对物理AI的兴趣正在增加。实现通用物理智能的目标正变得更容易实现,这将消除为机器人单独编程动作的需要。
Q&A
Q1:MolmoAct与传统机器人模型有什么区别?
A:MolmoAct具备三维空间推理能力,而传统的视觉-语言-动作(VLA)模型无法在空间中思考或推理。MolmoAct能够理解物理世界、规划空间占用并执行相应动作,从架构角度来看更加高效且具有更强的泛化能力。
Q2:MolmoAct的技术原理是什么?
A:MolmoAct通过输出"空间定位感知Token"来理解物理世界,这些Token使用向量量化变分自编码器预训练提取。模型能获得空间理解能力并编码几何结构,估算物体间距离,预测路径点,然后输出具体动作指令。
Q3:MolmoAct的性能表现如何?
A:基准测试显示,MolmoAct 7B的任务成功率达到72.1%,超越了谷歌、微软和英伟达的模型。研究人员表示,模型能够适应不同的具体实现形式,如机械臂或人形机器人,只需最少的微调。
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
康考迪亚大学研究团队通过对比混合量子-经典神经网络与传统模型在三个基准数据集上的表现,发现量子增强模型在准确率、训练速度和资源效率方面均显著优于传统方法。研究显示混合模型的优势随数据集复杂度提升而增强,在CIFAR100上准确率提升9.44%,训练速度提升5-12倍,且参数更少。该成果为实用化量子增强人工智能铺平道路。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
沙特KAUST大学团队开发了专门针对阿拉伯语的AI模型家族"Hala",通过创新的"翻译再调优"技术路线,将高质量英语指令数据转化为450万规模的阿拉伯语语料库,训练出350M到9B参数的多个模型。在阿拉伯语专项测试中,Hala在同规模模型中表现最佳,证明了语言专门化策略的有效性,为阿拉伯语AI发展和其他语言的专门化模型提供了可复制的技术方案。