Meta推出SAM Audio模型：AI音频分离新突破

Meta发布新款SAM Audio模型，能够通过文本、时间段标记和视频视觉选择等多种提示方式分离和编辑音频。该模型可从歌曲中提取特定乐器声音，或从录音中去除背景噪音，大幅减少传统音频编辑的手工操作。Meta声称这是首个统一的多模态音频分离模型，已在Segment Anything平台上线并开放下载。

想要单独听到一首歌中的吉他独奏？或者想从语音录音中去除火车噪音？Meta表示，其新推出的SAM Audio模型可以通过简单的提示来分离和编辑声音，大大减少了传统音频编辑工具所需的手动工作。

分段任意模型SAM Audio的发布延续了Meta此前发布的视觉资产分割模型。Meta现在声称，它已经创建了"首个用于音频分离的统一多模态模型"SAM Audio，该模型今天已在公司的Segment Anything Playground上提供，同时也可供下载。

所谓"多模态"，是指SAM Audio能够解释三种类型的音频分割提示：文本提示、时间段标记，以及视频中的视觉选择来隔离或移除特定声音。

以乐队演奏的视频为例，选择吉他手就能让SAM Audio自动隔离该演奏者的声音。在户外录音中高亮显示狗叫声的波形，告诉SAM移除该声音，它就能在整个文件中追踪并消除这些干扰。

"SAM Audio在多样化的真实场景中表现可靠——使用文本、视觉和时间线索，"Meta在SAM Audio发布声明中表示。"这种方法为人们提供了对音频分离方式的精确和直观控制。"

该公司表示，它看到了SAM Audio的多种用例，如清理音频文件、去除背景噪音，以及其他以前需要在音频编辑软件或专用声音混合工具中手动完成的任务。

话虽如此，使用AI处理音频并不是什么新想法——市面上有很多产品都能做SAM Audio所做的事情，但Meta将这个领域描述为"碎片化"的，"有各种为单一用途设计的工具"，不像SAM Audio所谓的统一模型。

鉴于其基于用户提示隔离特定声音的能力，人们自然会对这种模型的安全性产生疑问，以及它是否可能被用来在公共录音中单独提取声音或对话，从而可能创造出新的窃听途径。我们仔细查看了Meta的SAM Audio页面和相关研究论文，以获取有关新模型内置安全功能的更多信息，但该公司根本没有涉及这方面内容。

当被问及安全问题时，Meta只告诉我们，如果没有AI时某事是非法的，那么你就不应该使用AI来做这件事。

"正如SAM许可证所述，SAM材料的使用必须符合适用的法律法规，包括贸易管制法和适用的隐私和数据保护法，"Meta发言人告诉The Register，这听起来可疑地像是使用SAM Audio做恶事完全在其能力范围内。

不过，Meta自己承认SAM Audio有"一些局限性"，这可能意味着对于那些想要使用AI重现现代版《窃听大阴谋》的人来说，它还没有完全准备好。对于SAM Audio来说，分离"高度相似的音频事件"仍然是"一个挑战"，比如从众多声音中挑出一个声音或从管弦乐队中隔离单一乐器，Meta指出。SAM Audio也无法在没有提示的情况下完成任何音频分离，也不能将音频作为提示，这意味着向它输入你想要隔离的声音仍然超出了该机器人的范围。

SAM Audio可能有用的一个领域是无障碍空间，Meta表示正在积极朝这个方向努力。该公司表示已与美国助听器制造商Starkey合作探索潜在的集成，同时还与2gether-International（一个为残疾创业者提供服务的加速器）合作，探索SAM Audio可以服务的更多无障碍可能性。

Q&A

Q1：SAM Audio是什么？它有什么特别之处？

A：SAM Audio是Meta推出的音频分离AI模型，被称为"首个用于音频分离的统一多模态模型"。它的特别之处在于能够通过文本提示、时间段标记和视频中的视觉选择三种方式来分离音频，用户可以简单地选择视频中的吉他手来自动隔离该演奏者的声音。

Q2：SAM Audio能处理哪些音频分离任务？

A：SAM Audio可以清理音频文件、去除背景噪音、隔离特定乐器声音等。比如从乐队演奏中单独提取吉他声，或者从户外录音中去除狗叫声等干扰。不过它在处理高度相似的音频事件时仍有挑战，比如从众多声音中挑出一个声音。

Q3：SAM Audio的安全性如何？会不会被滥用？

A：Meta对SAM Audio的安全性问题回应较为模糊，只表示使用必须符合相关法律法规。由于该模型能够基于提示隔离特定声音，确实存在被用于窃听等不当用途的担忧，但Meta没有详细说明内置的安全防护措施。

来源：The Register

0赞

好文章，需要你的鼓励

Meta推出SAM Audio模型：AI音频分离新突破

来源：The Register

2025

12/17

08:03

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

英伟达推动数据中心增长，以太网交换机销售创纪录

Quobyte推出GPU融合存储技术优化AI集群数据处理

艾伦人工智能研究所推出Molmo 2，为AI系统带来开放视频理解能力

Adobe Firefly新增基于提示词的视频编辑功能

英伟达考虑增产H200芯片满足中国市场激增需求

IBM推出开源智能体CUGA 任务完成率超五成

OpenAI支持的生物技术公司Chai Discovery获1.3亿美元B轮融资

塑造2026年的八大智能手机趋势

AI架构师荣获《时代》杂志年度人物称号

iOS 26.2让用户可再次调整液态玻璃透明度

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会