谷歌周二宣布,生成式AI音乐工具ProducerAI将正式成为谷歌实验室的一部分。
ProducerAI平台获得了The Chainsmokers的投资支持,允许用户通过自然语言请求来生成音乐,比如"制作一个低保真节拍"这样的指令。该平台使用谷歌DeepMind的Lyria 3音乐生成模型,能够将文本甚至图像输入转换为音频输出。
谷歌上周宣布将把Lyria 3功能引入旗舰Gemini应用,但ProducerAI让用户能够更像与"合作伙伴"一样与AI模型进行交流。谷歌实验室产品管理高级总监Elias Roman表示:"ProducerAI让我能够以全新的方式创作。我尝试了新的音乐风格融合,为亲人创作个性化生日歌曲来表达情感,还为自己和朋友制作了定制的健身音乐。"
谷歌还透露,三次格莱美获奖说唱歌手Wyclef Jean在其最新歌曲《Back From Abu Dhabi》中使用了Lyria 3模型和谷歌的Music AI Sandbox。
谷歌DeepMind产品管理总监Jeff Chang在公司发布的视频中说:"这不只是一台你点击一百次按钮就完成的机器。这是一种精心策划的过程,你需要仔细筛选并说'哦,我觉得这个可以用'。"
Jean回忆说,他想知道长笛在已录制的曲目中会是什么效果,使用谷歌的工具能够快速在混音中加入长笛声音。
Jean在视频中表示:"我希望每个人都明白,你正处在一个人类必须最具创造力的时代。你拥有AI所没有的一样东西:灵魂。而AI拥有你所没有的一样东西:无限的信息。"
AI在音乐行业的应用
一些音乐家强烈反对在音乐制作过程中使用AI工具,因为生成式AI工具几乎肯定是在未经艺术家同意的情况下使用受版权保护的数据进行训练的。2024年,包括Billie Eilish、Katy Perry和Jon Bon Jovi在内的数百名音乐家签署了一封公开信,呼吁科技公司不要用AI音乐生成工具破坏人类的创造力。
一批音乐出版商最近也起诉AI公司Anthropic索赔30亿美元,声称该公司非法下载了超过2万首受版权保护的歌曲,包括乐谱、歌词和音乐作品。(法院已命令Anthropic向那些书籍被盗版用于AI训练的作者提供15亿美元的和解金。)
然而,其他艺术家已经接受了这项技术的潜力,将其作为提升音频质量的方式,而不是创作辅助工具。
Paul McCartney使用了AI噪音消除系统——这种技术类似于Zoom或FaceTime阻挡视频通话中不需要的背景噪音——来清理一首几十年前的低质量John Lennon演示录音。由此产生的"新"披头士歌曲《Now and Then》在2025年获得了格莱美奖。
与此同时,像Suno这样的AI音乐生成工具创作的合成音乐听起来足够真实,甚至能够登上Spotify和Billboard排行榜榜首。密西西比州31岁的Telisha Jones使用Suno将她的诗歌转换成病毒式传播的R&B歌曲《How Was I Supposed To Know》,并与Hallwood Media签署了据报价值300万美元的唱片合约。
关于使用受版权保护作品作为训练数据的合法性,法律仍不明确——联邦法官William Alsup去年裁定,使用受版权保护的数据进行训练是合法的,但盗版则不是。
Q&A
Q1:ProducerAI是什么?它有什么功能?
A:ProducerAI是一个生成式AI音乐工具,现已成为谷歌实验室的一部分。它允许用户通过自然语言请求来生成音乐,比如输入"制作一个低保真节拍"这样的指令。该平台使用谷歌DeepMind的Lyria 3音乐生成模型,能够将文本甚至图像输入转换为音频输出。
Q2:AI音乐生成工具在音乐行业引发了哪些争议?
A:主要争议在于版权问题。许多音乐家反对AI工具,因为这些工具通常在未经艺术家同意的情况下使用受版权保护的数据进行训练。数百名音乐家包括Billie Eilish等签署公开信反对,音乐出版商也对AI公司提起诉讼。法律对此仍不明确。
Q3:有哪些知名音乐人在使用AI技术制作音乐?
A:三次格莱美获奖说唱歌手Wyclef Jean在其歌曲《Back From Abu Dhabi》中使用了谷歌的Lyria 3模型。Paul McCartney使用AI噪音消除系统清理了John Lennon的老录音,制作出获得2025年格莱美奖的披头士歌曲《Now and Then》。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。