Stability AI是Stable Diffusion背后的公司,该公司近日发布了名为Stability Audio 3.0的新音频模型系列。据该公司称,其顶级模型能够生成超过六分钟的专业级音乐。
Stability Audio 3.0系列包含四个新模型
该公司在Stable Audio 3.0名称下发布了四个新模型:小型音效模型(4.59亿参数)、小型模型(4.59亿参数)、中型模型(14亿参数)和大型模型(27亿参数)。两个小型模型适合在设备端生成最长两分钟的音效和音乐。
中型和大型模型都能创作长达6分20秒的完整作品,并能保持音乐结构和旋律基调。这是2024年发布的Stable Audio 2.0生成能力的两倍多。
开放权重与商业授权并行
Stability AI正在以开放权重的形式提供小型音效、小型和中型模型,供任何人使用和修改。2024年,该公司发布了Stable Audio Open,可生成最长47秒的音乐。新模型系列相比之前的开放版本有了巨大飞跃。
大型模型仅通过API和付费自托管服务提供。此外,年收入超过100万美元的公司需要获得企业许可证。
音乐生成领域的竞争与版权挑战
包括谷歌和ElevenLabs在内的许多公司都在发布音乐生成相关的模型和工具。然而,正如Suno和Udio正在进行的法律诉讼所证明的那样,数据授权和与音乐厂牌的合作可能成为这些服务长期生存的关键部分。
去年,Stability AI与华纳音乐集团和环球音乐集团签署了协议,共同开发模型和音乐创作工具。该公司表示,其最新的音频模型系列是基于完全授权的数据构建的。
面向专业音乐人的新产品线
这家AI初创公司正在为专业音乐人开发一套新产品,但没有透露更多功能细节。环球音频和Fender前首席数字官Ethan Kaplan将加入该公司,领导Stability的专业音乐业务。
许多AI公司正试图通过聘请音乐行业高管来增强其可信度。今年早些时候,Suno聘请了前Merlin首席执行官Jeremy Sirota担任首席商务官。ElevenLabs也从独立音乐出版商Kobalt聘请了Derek Cournoyer,担任其音乐业务的战略负责人。
Q&A
Q1:Stability Audio 3.0能生成多长的音乐?
A:Stability Audio 3.0的中型和大型模型能够创作长达6分20秒的完整音乐作品,并能保持音乐结构和旋律基调。这是2024年发布的Stable Audio 2.0生成能力的两倍多,相比之前的开放版本有了巨大提升。
Q2:Stability Audio 3.0有哪些模型可以免费使用?
A:Stability AI以开放权重的形式提供小型音效模型、小型模型和中型模型,供任何人免费使用和修改。大型模型仅通过API和付费自托管服务提供,年收入超过100万美元的公司需要获得企业许可证。
Q3:Stability AI如何解决音乐生成的版权问题?
A:Stability AI与华纳音乐集团和环球音乐集团签署了合作协议,共同开发模型和音乐创作工具。该公司表示,其最新的音频模型系列是基于完全授权的数据构建的,以避免像Suno和Udio那样面临版权诉讼。
好文章,需要你的鼓励
谷歌发布Project Genie新功能,将其世界生成模型与Google街景视图相结合,使AI智能体能够在基于真实地点的虚拟环境中导航与交互。用户可选择美国任意地点,结合"沙漠""石器时代"等风格,生成富有创意的沉浸式世界。该功能目前已向全球符合条件的Google AI Ultra订阅用户(200美元/月)逐步开放,未来计划扩展至更多地区。
新加坡国立大学构建了首个视频隐喻理解基准ViMU,含588段视频与2352道题,测试16个主流AI模型均未超过50%,揭示AI在视频潜台词理解上的系统性短板。
保加利亚国家系统集成商BIS已部署谷歌云Cybershield服务,成为欧洲首批落地该方案的国家之一。项目获欧盟资金支持,旨在整合网络情报与遥测数据,覆盖54个政府及公共部门实体,将威胁检测与响应从被动转为主动。BIS将借助谷歌云安全运营平台及Mandiant威胁情报,构建联邦化跨机构安全运营中心,以AI驱动的防御能力应对日益复杂的网络威胁。
浙江大学等机构联合提出PanoWorld,通过球面空间交叉注意力和57万张全景图训练数据,让AI能直接理解360度全景图的空间结构,在导航和视觉搜索任务中大幅超越现有方法。