Meta公司今天扩展了其开源Segment Anything计算机视觉模型套件,发布了SAM 3和SAM 3D,引入了增强的物体识别和三维重建功能。
Meta表示,Segment Anything 3模型的全称是SAM 3,能够通过文本提示检测和跟踪图像和视频中的物体,而SAM 3D可以为输入图像中的任何物体或人物生成极其逼真的3D版本。
SAM 3和SAM 3D属于"图像分割"模型。分割是计算机视觉的一个子领域,教授算法识别图像或视频中的特定物体。它被广泛应用于卫星图像分析和照片编辑等领域。
Meta在图像分割领域被广泛认为是领导者,早在2023年4月就首次推出了原始的Segment Anything Model,并提供了包含数百万物体图像的大型数据集,以支持开源人工智能研究社区。
物体识别技术的突破
SAM 3在原始SAM模型的基础上构建。Meta声称在检测、分割和跟踪图像和视频中单个物体的能力方面具有更高的准确性。该模型还支持通过详细的基于文本的提示来转换这些物体,用户可以描述他们想要分割的图像中的特定物体,以及希望如何编辑它。例如,人们可以上传一张穿蓝色衬衫的照片,要求模型将其更改为红色衬衫。
Meta声称这是一个重大进步。它表示,AI模型长期以来一直难以将自然语言输入与图像和视频中的特定视觉元素联系起来。虽然大多数模型可以分割"公交车"或"汽车"等简单概念,但它们通常只支持有限的文本标签集,这意味着它们不总是理解"黄色校车"等更复杂的描述。
Meta表示SAM 3克服了这些限制,可以支持更广泛的描述范围。如果有人输入"红色棒球帽",模型将分割它在图像或视频中找到的所有匹配物体。此外,它可以与多模态大语言模型结合使用,理解更长的提示,如"坐着的人,但没有戴红色棒球帽"。
据Meta称,SAM 3可以为照片和视频编辑应用以及创意媒体带来众多可能性。它正在其新的AI视频创作应用Edits中试验该模型,并计划引入用户能够应用于视频中特定物体和人物的新特效。此外,它将把SAM 3引入Vibes,这是一个类似TikTok的短视频AI生成平台。
物体和人物重建
至于SAM 3D,它将SAM 3的图像分割能力进一步扩展,不仅能够识别,还能够以三维方式重建它识别的物体、人物和动物。例如,如果有人有一张已故祖父的照片,他们将能够使用SAM 3D以3D形式重建他的形象,然后将其导入视频或虚拟现实世界中,公司表示。
SAM 3D由两个不同的模型驱动,包括支持物体和场景重建的SAM 3D Objects,以及经过训练通过仔细估计人体形状和体格来重建人类的SAM 3D Body,这些估计基于它能看到的2D图像。
Meta认为SAM 3D对机器人技术、科学和运动医学等领域以及创意用例具有重大意义。例如,它可以支持创建3D虚拟世界和增强现实体验,或者基于现实世界物体和人物为视频游戏创建新资产。它在AI支持的3D建模中也有用途,公司表示。
像往常一样,Meta正在使用SAM 3D本身来启用Facebook Marketplace上新的"房间查看"功能。当有人浏览台灯、桌子或椅子等家居装饰用品时,他们将能够在购买前在自己的客厅中模拟其外观。
这两个模型都可以在Meta的新Segment Anything Playground中访问,公司表示不需要专业知识就可以开始使用它们。用户可以上传图像或视频,然后输入提示来切出不同的物体。或者,他们可以使用SAM 3D从不同角度查看场景,虚拟重新排列或添加运动轨迹等特效。
Meta正在与其他研究社区分享SAM 3,使模型权重与代码一起可用。它还发布了一个新的开放词汇分割评估基准和数据集,以及一篇描述如何构建新模型的研究论文。
SAM 3D尚未完全开源,但Meta表示将分享模型检查点和推理代码,这些将与新的3D重建基准一起发布。还有一个包含各种不同图像和物体的广泛数据集,用于训练目的。
Q&A
Q1:SAM 3相比原始SAM模型有什么改进?
A:SAM 3在检测、分割和跟踪图像和视频中单个物体的能力方面具有更高的准确性。它还支持通过详细的文本提示来转换物体,用户可以描述想要分割的特定物体以及编辑方式。最重要的是,它克服了AI模型难以理解复杂描述的限制,可以支持更广泛的文本描述范围。
Q2:SAM 3D能够实现什么样的3D重建功能?
A:SAM 3D不仅能识别物体、人物和动物,还能以三维方式重建它们。它由两个模型组成:SAM 3D Objects支持物体和场景重建,SAM 3D Body专门重建人类,能够根据2D图像仔细估计人体形状和体格。用户可以将重建的3D模型导入视频或虚拟现实世界中。
Q3:普通用户如何使用这些新模型?
A:用户可以通过Meta的新Segment Anything Playground访问这两个模型,不需要专业知识。用户可以上传图像或视频,然后输入提示来切出不同物体,或使用SAM 3D从不同角度查看场景并虚拟重新排列。Meta还在其Edits视频创作应用和Facebook Marketplace的"房间查看"功能中应用了这些技术。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。