Meta公司今天扩展了其开源Segment Anything计算机视觉模型套件,发布了SAM 3和SAM 3D,引入了增强的物体识别和三维重建功能。
Meta表示,Segment Anything 3模型的全称是SAM 3,能够通过文本提示检测和跟踪图像和视频中的物体,而SAM 3D可以为输入图像中的任何物体或人物生成极其逼真的3D版本。
SAM 3和SAM 3D属于"图像分割"模型。分割是计算机视觉的一个子领域,教授算法识别图像或视频中的特定物体。它被广泛应用于卫星图像分析和照片编辑等领域。
Meta在图像分割领域被广泛认为是领导者,早在2023年4月就首次推出了原始的Segment Anything Model,并提供了包含数百万物体图像的大型数据集,以支持开源人工智能研究社区。
物体识别技术的突破
SAM 3在原始SAM模型的基础上构建。Meta声称在检测、分割和跟踪图像和视频中单个物体的能力方面具有更高的准确性。该模型还支持通过详细的基于文本的提示来转换这些物体,用户可以描述他们想要分割的图像中的特定物体,以及希望如何编辑它。例如,人们可以上传一张穿蓝色衬衫的照片,要求模型将其更改为红色衬衫。
Meta声称这是一个重大进步。它表示,AI模型长期以来一直难以将自然语言输入与图像和视频中的特定视觉元素联系起来。虽然大多数模型可以分割"公交车"或"汽车"等简单概念,但它们通常只支持有限的文本标签集,这意味着它们不总是理解"黄色校车"等更复杂的描述。
Meta表示SAM 3克服了这些限制,可以支持更广泛的描述范围。如果有人输入"红色棒球帽",模型将分割它在图像或视频中找到的所有匹配物体。此外,它可以与多模态大语言模型结合使用,理解更长的提示,如"坐着的人,但没有戴红色棒球帽"。
据Meta称,SAM 3可以为照片和视频编辑应用以及创意媒体带来众多可能性。它正在其新的AI视频创作应用Edits中试验该模型,并计划引入用户能够应用于视频中特定物体和人物的新特效。此外,它将把SAM 3引入Vibes,这是一个类似TikTok的短视频AI生成平台。
物体和人物重建
至于SAM 3D,它将SAM 3的图像分割能力进一步扩展,不仅能够识别,还能够以三维方式重建它识别的物体、人物和动物。例如,如果有人有一张已故祖父的照片,他们将能够使用SAM 3D以3D形式重建他的形象,然后将其导入视频或虚拟现实世界中,公司表示。
SAM 3D由两个不同的模型驱动,包括支持物体和场景重建的SAM 3D Objects,以及经过训练通过仔细估计人体形状和体格来重建人类的SAM 3D Body,这些估计基于它能看到的2D图像。
Meta认为SAM 3D对机器人技术、科学和运动医学等领域以及创意用例具有重大意义。例如,它可以支持创建3D虚拟世界和增强现实体验,或者基于现实世界物体和人物为视频游戏创建新资产。它在AI支持的3D建模中也有用途,公司表示。
像往常一样,Meta正在使用SAM 3D本身来启用Facebook Marketplace上新的"房间查看"功能。当有人浏览台灯、桌子或椅子等家居装饰用品时,他们将能够在购买前在自己的客厅中模拟其外观。
这两个模型都可以在Meta的新Segment Anything Playground中访问,公司表示不需要专业知识就可以开始使用它们。用户可以上传图像或视频,然后输入提示来切出不同的物体。或者,他们可以使用SAM 3D从不同角度查看场景,虚拟重新排列或添加运动轨迹等特效。
Meta正在与其他研究社区分享SAM 3,使模型权重与代码一起可用。它还发布了一个新的开放词汇分割评估基准和数据集,以及一篇描述如何构建新模型的研究论文。
SAM 3D尚未完全开源,但Meta表示将分享模型检查点和推理代码,这些将与新的3D重建基准一起发布。还有一个包含各种不同图像和物体的广泛数据集,用于训练目的。
Q&A
Q1:SAM 3相比原始SAM模型有什么改进?
A:SAM 3在检测、分割和跟踪图像和视频中单个物体的能力方面具有更高的准确性。它还支持通过详细的文本提示来转换物体,用户可以描述想要分割的特定物体以及编辑方式。最重要的是,它克服了AI模型难以理解复杂描述的限制,可以支持更广泛的文本描述范围。
Q2:SAM 3D能够实现什么样的3D重建功能?
A:SAM 3D不仅能识别物体、人物和动物,还能以三维方式重建它们。它由两个模型组成:SAM 3D Objects支持物体和场景重建,SAM 3D Body专门重建人类,能够根据2D图像仔细估计人体形状和体格。用户可以将重建的3D模型导入视频或虚拟现实世界中。
Q3:普通用户如何使用这些新模型?
A:用户可以通过Meta的新Segment Anything Playground访问这两个模型,不需要专业知识。用户可以上传图像或视频,然后输入提示来切出不同物体,或使用SAM 3D从不同角度查看场景并虚拟重新排列。Meta还在其Edits视频创作应用和Facebook Marketplace的"房间查看"功能中应用了这些技术。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。