生成式AI已经深入到音乐行业的各个环节,从采样素材和录制小样,到提供数字内页说明和构建播放列表。这个领域存在着技术和法律挑战、激烈的伦理争论,以及对大量AI生成内容可能冲击在职音乐人生计的担忧。它究竟是艺术还是仅仅是一种输出?什么才算"真正活跃的"创作?无论是新模型还是新诉讼,我们都在全面跟踪报道,确保您不错过任何重要发展。
重点动态概览
Suno发布v5.5版本,增强定制化功能
Suno刚刚发布了其最重大的更新之一——v5.5版AI音乐模型。与以往专注于改善保真度和创建更自然人声的更新不同,v5.5版本着重为用户提供更多控制权。新版本包含三项新功能:语音功能、个人品味和自定义模型。
在发布说明中,Suno表示语音功能是用户最多要求的特性。它允许用户用自己的声音训练语音模型。用户可以上传清晰的无伴奏人声、带有伴奏的完整曲目,或直接对着手机或笔记本电脑的麦克风演唱。录音越清晰、质量越高,所需的数据就越少。为防止有人盗用他人声音,Suno要求用户还需朗读验证短语。
音乐行业对AI采取"不问不说"政策
不仅仅是乡村音乐界悄悄接受了AI,各种音乐风格的艺术家都在使用AI来尝试编曲、制作新歌小样和创建采样素材。但据《滚石》杂志报道,作词家米歇尔·刘易斯表示,没人愿意承认这一点。制作人Young Guru认为这种做法比任何人想象的都要普遍,他猜测"超过一半"基于采样的嘻哈音乐现在都是这样制作的。
苹果音乐为AI歌曲和视觉内容添加可选标签
苹果正在要求其音乐流媒体平台上的艺术家和唱片公司自愿为使用AI制作的歌曲添加标签。这个新的"透明度标签"元数据系统涵盖四个类别,包括曲目、作曲、艺术作品和音乐视频。
当"录音的重要部分"由AI工具生成时应使用曲目标签,而作曲标签则涵盖其他AI生成的作曲元素,如歌词。艺术作品标签适用于静态或动态图形,但仅限于专辑级别。对于所有其他AI生成的视觉内容,无论是独立的还是与专辑捆绑的,都应使用音乐视频标签。
Bandcamp成为首个禁止AI内容的主要音乐平台
Bandcamp建立品牌的核心就是服务艺术家。随着艺术家对AI的愤怒情绪日益高涨,该公司决定表明立场也就不足为奇了。在一篇Reddit帖子中,Bandcamp宣布平台上不允许AI生成的内容,违规内容将被删除。
指导原则没有留下解释空间。该公司在帖子中说:"完全或主要由AI生成的音乐和音频不被允许在Bandcamp上出现。"它还禁止使用AI工具来冒充其他艺术家或风格,这与Spotify在9月份实施的规则类似。
97%的人难以识别AI音乐
流媒体服务Deezer最近在研究公司Ipsos的帮助下进行了一项实验。研究发现97%的人无法区分完全由AI生成的音乐和人类制作的音乐,这个结果令人担忧。但这也不是全部真相。
在调查中,9000名参与者听了三首曲目,并被要求猜测其中哪一首(如果有的话)是完全由AI生成的。如果参与者未能全部猜对,就被归入失败组。这意味着即使你答对了三道题中的两道,Deezer和Ipsos仍然认为你无法区分完全AI生成的音乐和真实音乐。
音乐行业全面拥抱AI
两年前,"BBL Drizzy"是AI音乐界的一声惊雷:一首听起来像Drake演唱的歌曲突然走红,引发了一场关于艺术性、肖像权以及版权的争论。三大唱片公司——环球音乐集团(UMG)、索尼音乐娱乐和华纳唱片——因"大规模"版权侵犯起诉AI公司Udio和Suno;他们与TikTok就包括平台上AI内容在内的问题展开公开争执;并开始开发AI检测工具来跟踪他们的音乐传播情况。
现在,音乐行业和AI初创公司在一条(可盈利的)前进道路上基本达成一致——这看起来很像艺术家已经被困在其中的系统。
Q&A
Q1:Suno的v5.5版本有哪些新功能?
A:Suno v5.5版本包含三项新功能:语音功能、个人品味和自定义模型。语音功能允许用户用自己的声音训练AI语音模型,用户可以上传清晰的无伴奏人声、完整曲目或直接对麦克风演唱。为防止盗用他人声音,系统要求用户朗读验证短语。
Q2:为什么说97%的人无法识别AI音乐这个数据有误导性?
A:这个调查要求参与者从三首曲目中猜测哪些是AI生成的,只有全部猜对才算通过。即使答对三道题中的两道,也被归为无法识别AI音乐。这种评判标准过于严格,不能真实反映人们识别AI音乐的实际能力。
Q3:Bandcamp为什么要禁止AI内容?
A:Bandcamp的品牌核心是服务艺术家,随着艺术家对AI的愤怒情绪日益高涨,该公司决定明确表态。平台宣布不允许完全或主要由AI生成的音乐和音频,并禁止使用AI工具冒充其他艺术家或风格,违规内容将被删除。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。