Meta公司今天扩展了其开源Segment Anything计算机视觉模型套件,发布了SAM 3和SAM 3D,引入了增强的物体识别和三维重建功能。
Meta表示,Segment Anything 3模型的全称是SAM 3,能够通过文本提示检测和跟踪图像和视频中的物体,而SAM 3D可以为输入图像中的任何物体或人物生成极其逼真的3D版本。
SAM 3和SAM 3D属于"图像分割"模型。分割是计算机视觉的一个子领域,教授算法识别图像或视频中的特定物体。它被广泛应用于卫星图像分析和照片编辑等领域。
Meta在图像分割领域被广泛认为是领导者,早在2023年4月就首次推出了原始的Segment Anything Model,并提供了包含数百万物体图像的大型数据集,以支持开源人工智能研究社区。
物体识别技术的突破
SAM 3在原始SAM模型的基础上构建。Meta声称在检测、分割和跟踪图像和视频中单个物体的能力方面具有更高的准确性。该模型还支持通过详细的基于文本的提示来转换这些物体,用户可以描述他们想要分割的图像中的特定物体,以及希望如何编辑它。例如,人们可以上传一张穿蓝色衬衫的照片,要求模型将其更改为红色衬衫。
Meta声称这是一个重大进步。它表示,AI模型长期以来一直难以将自然语言输入与图像和视频中的特定视觉元素联系起来。虽然大多数模型可以分割"公交车"或"汽车"等简单概念,但它们通常只支持有限的文本标签集,这意味着它们不总是理解"黄色校车"等更复杂的描述。
Meta表示SAM 3克服了这些限制,可以支持更广泛的描述范围。如果有人输入"红色棒球帽",模型将分割它在图像或视频中找到的所有匹配物体。此外,它可以与多模态大语言模型结合使用,理解更长的提示,如"坐着的人,但没有戴红色棒球帽"。
据Meta称,SAM 3可以为照片和视频编辑应用以及创意媒体带来众多可能性。它正在其新的AI视频创作应用Edits中试验该模型,并计划引入用户能够应用于视频中特定物体和人物的新特效。此外,它将把SAM 3引入Vibes,这是一个类似TikTok的短视频AI生成平台。
物体和人物重建
至于SAM 3D,它将SAM 3的图像分割能力进一步扩展,不仅能够识别,还能够以三维方式重建它识别的物体、人物和动物。例如,如果有人有一张已故祖父的照片,他们将能够使用SAM 3D以3D形式重建他的形象,然后将其导入视频或虚拟现实世界中,公司表示。
SAM 3D由两个不同的模型驱动,包括支持物体和场景重建的SAM 3D Objects,以及经过训练通过仔细估计人体形状和体格来重建人类的SAM 3D Body,这些估计基于它能看到的2D图像。
Meta认为SAM 3D对机器人技术、科学和运动医学等领域以及创意用例具有重大意义。例如,它可以支持创建3D虚拟世界和增强现实体验,或者基于现实世界物体和人物为视频游戏创建新资产。它在AI支持的3D建模中也有用途,公司表示。
像往常一样,Meta正在使用SAM 3D本身来启用Facebook Marketplace上新的"房间查看"功能。当有人浏览台灯、桌子或椅子等家居装饰用品时,他们将能够在购买前在自己的客厅中模拟其外观。
这两个模型都可以在Meta的新Segment Anything Playground中访问,公司表示不需要专业知识就可以开始使用它们。用户可以上传图像或视频,然后输入提示来切出不同的物体。或者,他们可以使用SAM 3D从不同角度查看场景,虚拟重新排列或添加运动轨迹等特效。
Meta正在与其他研究社区分享SAM 3,使模型权重与代码一起可用。它还发布了一个新的开放词汇分割评估基准和数据集,以及一篇描述如何构建新模型的研究论文。
SAM 3D尚未完全开源,但Meta表示将分享模型检查点和推理代码,这些将与新的3D重建基准一起发布。还有一个包含各种不同图像和物体的广泛数据集,用于训练目的。
Q&A
Q1:SAM 3相比原始SAM模型有什么改进?
A:SAM 3在检测、分割和跟踪图像和视频中单个物体的能力方面具有更高的准确性。它还支持通过详细的文本提示来转换物体,用户可以描述想要分割的特定物体以及编辑方式。最重要的是,它克服了AI模型难以理解复杂描述的限制,可以支持更广泛的文本描述范围。
Q2:SAM 3D能够实现什么样的3D重建功能?
A:SAM 3D不仅能识别物体、人物和动物,还能以三维方式重建它们。它由两个模型组成:SAM 3D Objects支持物体和场景重建,SAM 3D Body专门重建人类,能够根据2D图像仔细估计人体形状和体格。用户可以将重建的3D模型导入视频或虚拟现实世界中。
Q3:普通用户如何使用这些新模型?
A:用户可以通过Meta的新Segment Anything Playground访问这两个模型,不需要专业知识。用户可以上传图像或视频,然后输入提示来切出不同物体,或使用SAM 3D从不同角度查看场景并虚拟重新排列。Meta还在其Edits视频创作应用和Facebook Marketplace的"房间查看"功能中应用了这些技术。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。