基于图像理解人工智能模型的基础,艾伦人工智能研究所今日推出了Molmo 2,这是一个适用于计算机视频和多图像理解的多模态模型系列。
2024年,Ai2发布了Molmo,该模型为图像理解设立了新的基准,并帮助建立了强大"指向"和标记能力的参考标准。这些模型不仅能够描述图像中出现的内容,还能以高置信度识别和标记物体。
Molmo 2系列包含三个变体,每个都针对不同的使用场景设计:Molmo 2 8B、Molmo 2 4B和Molmo 2-O 7B。8B和4B模型基于阿里巴巴集团的开放权重推理模型Qwen 3,提供视频定位和问答能力。Molmo 2-O变体基于Ai2的开源模型系列Olmo构建,专注于高智能和推理性能。
据Ai2介绍,较小的Molmo 2模型相对于其规模展现出了超常的性能。8B模型在关键图像理解任务和相关基准测试中超越了原始的Molmo 720亿参数模型,为效率设立了新标准。
在图像和多图像推理方面,4B变体尽管规模极其紧凑,仍在推理方面表现出色。它超越了Qwen 3-VL-8B等开放模型,且训练数据远少于类似模型。它仅使用919万个视频,而Meta平台公司的PerceptronLM使用了7250万个视频。
这些较小的规模使模型能够使用更少的硬件高效部署,降低成本的同时提高了基本能力的可用性。
Ai2首席执行官Ali Farhadi表示:"通过Olmo,我们为真正开放的AI设立了标准,去年Molmo引领行业走向指向功能;Molmo 2通过将这些能力带入视频和时间域,进一步推动了发展。"
像Molmo 2这样的模型为辅助和智能物理技术奠定了基础,通常被称为物理AI。这些系统感知、理解并推理现实世界,以便有意义地与之交互。
要让机器与环境交互,它们必须首先理解所观察到的内容。人类直觉地执行这项任务,但机器需要能够分割物体、随时间跟踪它们、一致地标记它们并分配预期属性的AI模型。
Ai2表示,Molmo 2为视频理解引入了此前没有开放模型能够提供的能力。这包括准确识别事件发生的位置和时间、在复杂场景中跟踪多个物体,以及将动作连接到帧级时间线。
这种对物理世界的改进理解对于交通摄像头、零售物品跟踪平台、安全监控系统、自动驾驶车辆和机器人等智能系统至关重要。快速分类视野中的物体及其固有特征,使机器能够推理接下来可能发生的事情。这种能力不仅对交互至关重要,对安全也同样重要。理解机器人正在观察什么从根本上改变了它选择如何响应的方式。
此外,Ai2还发布了用于训练Molmo 2的九个新开放数据集集合,总计超过900万个多模态示例,涵盖密集视频字幕、长形式问答定位、跟踪和多图像推理。仅字幕数据集就涵盖了1000多个视频,每个视频都有平均超过900字的详细描述。
据该研究所介绍,这个数据集语料库提供了视频指向、多物体跟踪、合成定位和长视频推理的混合。它表示,这些数据集结合起来为当今最完整的开放视频数据集合奠定了基础。
所有模型、数据集和评估工具现已在GitHub、Hugging Face和Ai2 Playground上公开提供,供交互式测试使用。该研究所表示将很快发布训练代码。
Q&A
Q1:Molmo 2相比原版Molmo有什么改进?
A:Molmo 2在原有图像理解基础上增加了视频理解能力,能够识别事件发生的确切位置和时间,在复杂场景中跟踪多个物体,并将动作连接到帧级时间线。8B模型甚至超越了原始720亿参数的Molmo模型性能。
Q2:Molmo 2有哪些不同的版本?
A:Molmo 2系列包含三个变体:Molmo 2 8B和4B基于阿里巴巴的Qwen 3模型,提供视频定位和问答能力;Molmo 2-O 7B基于Ai2的开源Olmo模型,专注于高智能和推理性能。
Q3:Molmo 2的视频理解能力可以应用在哪些场景?
A:Molmo 2的视频理解能力可广泛应用于交通摄像头、零售物品跟踪平台、安全监控系统、自动驾驶车辆和机器人等智能系统,帮助这些系统更好地感知、理解和推理现实世界。
好文章,需要你的鼓励
随着AI广泛应用推动数据中心建设热潮,运营商面临可持续发展挑战。2024年底美国已建成或批准1240个数据中心,能耗激增引发争议。除能源问题外,服务器和GPU更新换代产生的电子废物同样严重。通过采用模块化可修复系统、AI驱动资产跟踪、标准化数据清理技术以及与认证ITAD合作伙伴合作,数据中心可实现循环经济模式,在确保数据安全的同时减少环境影响。
剑桥大学研究团队首次系统探索AI在多轮对话中的信心判断问题。研究发现当前AI系统在评估自己答案可靠性方面存在严重缺陷,容易被对话长度而非信息质量误导。团队提出P(SUFFICIENT)等新方法,但整体问题仍待解决。该研究为AI在医疗、法律等关键领域的安全应用提供重要指导,强调了开发更可信AI系统的紧迫性。
超大规模云数据中心是数字经济的支柱,2026年将继续保持核心地位。AWS、微软、谷歌、Meta、甲骨文和阿里巴巴等主要运营商正积极扩张以满足AI和云服务需求激增,预计2026年资本支出将超过6000亿美元。然而增长受到电力供应、设备交付和当地阻力制约。截至2025年末,全球运营中的超大规模数据中心达1297个,总容量预计在12个季度内翻倍。
威斯康星大学研究团队开发出Prithvi-CAFE洪水监测系统,通过"双视觉协作"机制解决了AI地理基础模型在洪水识别上的局限性。该系统巧妙融合全局理解和局部细节能力,在国际标准数据集上创造最佳成绩,参数效率提升93%,为全球洪水预警和防灾减灾提供了更准确可靠的技术方案。