艾伦人工智能研究所推出Molmo 2，为AI系统带来开放视频理解能力

艾伦人工智能研究所推出Molmo 2多模态模型系列，在图像理解基础上扩展至视频和多图像理解能力。该系列包含三个变体：8B、4B和2-O 7B模型，分别基于阿里巴巴Qwen 3和研究所自研Olmo模型构建。新模型在保持高效性能的同时显著缩小了参数规模，8B模型在关键图像理解任务上超越了原版720亿参数模型。Molmo 2具备视频定位、多对象追踪和时序推理等创新功能，为物理AI、自动驾驶、机器人等领域提供重要技术支撑。

基于图像理解人工智能模型的基础，艾伦人工智能研究所今日推出了Molmo 2，这是一个适用于计算机视频和多图像理解的多模态模型系列。

2024年，Ai2发布了Molmo，该模型为图像理解设立了新的基准，并帮助建立了强大"指向"和标记能力的参考标准。这些模型不仅能够描述图像中出现的内容，还能以高置信度识别和标记物体。

Molmo 2系列包含三个变体，每个都针对不同的使用场景设计：Molmo 2 8B、Molmo 2 4B和Molmo 2-O 7B。8B和4B模型基于阿里巴巴集团的开放权重推理模型Qwen 3，提供视频定位和问答能力。Molmo 2-O变体基于Ai2的开源模型系列Olmo构建，专注于高智能和推理性能。

据Ai2介绍，较小的Molmo 2模型相对于其规模展现出了超常的性能。8B模型在关键图像理解任务和相关基准测试中超越了原始的Molmo 720亿参数模型，为效率设立了新标准。

在图像和多图像推理方面，4B变体尽管规模极其紧凑，仍在推理方面表现出色。它超越了Qwen 3-VL-8B等开放模型，且训练数据远少于类似模型。它仅使用919万个视频，而Meta平台公司的PerceptronLM使用了7250万个视频。

这些较小的规模使模型能够使用更少的硬件高效部署，降低成本的同时提高了基本能力的可用性。

Ai2首席执行官Ali Farhadi表示："通过Olmo，我们为真正开放的AI设立了标准，去年Molmo引领行业走向指向功能；Molmo 2通过将这些能力带入视频和时间域，进一步推动了发展。"

像Molmo 2这样的模型为辅助和智能物理技术奠定了基础，通常被称为物理AI。这些系统感知、理解并推理现实世界，以便有意义地与之交互。

要让机器与环境交互，它们必须首先理解所观察到的内容。人类直觉地执行这项任务，但机器需要能够分割物体、随时间跟踪它们、一致地标记它们并分配预期属性的AI模型。

Ai2表示，Molmo 2为视频理解引入了此前没有开放模型能够提供的能力。这包括准确识别事件发生的位置和时间、在复杂场景中跟踪多个物体，以及将动作连接到帧级时间线。

这种对物理世界的改进理解对于交通摄像头、零售物品跟踪平台、安全监控系统、自动驾驶车辆和机器人等智能系统至关重要。快速分类视野中的物体及其固有特征，使机器能够推理接下来可能发生的事情。这种能力不仅对交互至关重要，对安全也同样重要。理解机器人正在观察什么从根本上改变了它选择如何响应的方式。

此外，Ai2还发布了用于训练Molmo 2的九个新开放数据集集合，总计超过900万个多模态示例，涵盖密集视频字幕、长形式问答定位、跟踪和多图像推理。仅字幕数据集就涵盖了1000多个视频，每个视频都有平均超过900字的详细描述。

据该研究所介绍，这个数据集语料库提供了视频指向、多物体跟踪、合成定位和长视频推理的混合。它表示，这些数据集结合起来为当今最完整的开放视频数据集合奠定了基础。

所有模型、数据集和评估工具现已在GitHub、Hugging Face和Ai2 Playground上公开提供，供交互式测试使用。该研究所表示将很快发布训练代码。

Q&A

Q1：Molmo 2相比原版Molmo有什么改进？

A：Molmo 2在原有图像理解基础上增加了视频理解能力，能够识别事件发生的确切位置和时间，在复杂场景中跟踪多个物体，并将动作连接到帧级时间线。8B模型甚至超越了原始720亿参数的Molmo模型性能。

Q2：Molmo 2有哪些不同的版本？

A：Molmo 2系列包含三个变体：Molmo 2 8B和4B基于阿里巴巴的Qwen 3模型，提供视频定位和问答能力；Molmo 2-O 7B基于Ai2的开源Olmo模型，专注于高智能和推理性能。

Q3：Molmo 2的视频理解能力可以应用在哪些场景？

A：Molmo 2的视频理解能力可广泛应用于交通摄像头、零售物品跟踪平台、安全监控系统、自动驾驶车辆和机器人等智能系统，帮助这些系统更好地感知、理解和推理现实世界。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

艾伦人工智能研究所推出Molmo 2，为AI系统带来开放视频理解能力

来源：SiliconANGLE

2025

12/17

07:57

分享

点赞

Zoom推出AI Companion 3.0智能体工作流程

ChatGPT成为互联网最受阻止的爬虫机器人

英伟达推出开源权重模型填补美国AI市场空白

Meta推出SAM Audio模型：AI音频分离新突破

英伟达推动数据中心增长，以太网交换机销售创纪录

Quobyte推出GPU融合存储技术优化AI集群数据处理

泰恩港采用私有5G网络实现运营效率显著提升

艾伦人工智能研究所推出Molmo 2，为AI系统带来开放视频理解能力

Adobe Firefly新增基于提示词的视频编辑功能

对话AppsFlyer王玮：预算回升、格局收紧，“素材”成为新的竞争战场

NVIDIA Nemotron 3 系列开放模型： 击穿AI“工程墙”开启“Agentic AI”的“Linux时刻”

W.AWARDS金网奖2026未来商业计划领航秀峰会收官

Adobe Firefly新增基于提示词的视频编辑功能

英伟达考虑增产H200芯片满足中国市场激增需求

IBM推出开源智能体CUGA 任务完成率超五成

OpenAI支持的生物技术公司Chai Discovery获1.3亿美元B轮融资

塑造2026年的八大智能手机趋势

AI架构师荣获《时代》杂志年度人物称号

iOS 26.2让用户可再次调整液态玻璃透明度

停止将AI拟人化：这样做的危害性分析

Nutanix推出分布式主权云服务 强化多云环境安全运营

金融监管机构推动房贷经纪人采用人工智能技术

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

NVIDIA Nemotron 3 系列开放模型：击穿AI“工程墙”开启“Agentic AI”的“Linux时刻”

Nutanix推出分布式主权云服务强化多云环境安全运营