Stability AI是Stable Diffusion背后的公司,该公司近日发布了名为Stability Audio 3.0的新音频模型系列。据该公司称,其顶级模型能够生成超过六分钟的专业级音乐。
Stability Audio 3.0系列包含四个新模型
该公司在Stable Audio 3.0名称下发布了四个新模型:小型音效模型(4.59亿参数)、小型模型(4.59亿参数)、中型模型(14亿参数)和大型模型(27亿参数)。两个小型模型适合在设备端生成最长两分钟的音效和音乐。
中型和大型模型都能创作长达6分20秒的完整作品,并能保持音乐结构和旋律基调。这是2024年发布的Stable Audio 2.0生成能力的两倍多。
开放权重与商业授权并行
Stability AI正在以开放权重的形式提供小型音效、小型和中型模型,供任何人使用和修改。2024年,该公司发布了Stable Audio Open,可生成最长47秒的音乐。新模型系列相比之前的开放版本有了巨大飞跃。
大型模型仅通过API和付费自托管服务提供。此外,年收入超过100万美元的公司需要获得企业许可证。
音乐生成领域的竞争与版权挑战
包括谷歌和ElevenLabs在内的许多公司都在发布音乐生成相关的模型和工具。然而,正如Suno和Udio正在进行的法律诉讼所证明的那样,数据授权和与音乐厂牌的合作可能成为这些服务长期生存的关键部分。
去年,Stability AI与华纳音乐集团和环球音乐集团签署了协议,共同开发模型和音乐创作工具。该公司表示,其最新的音频模型系列是基于完全授权的数据构建的。
面向专业音乐人的新产品线
这家AI初创公司正在为专业音乐人开发一套新产品,但没有透露更多功能细节。环球音频和Fender前首席数字官Ethan Kaplan将加入该公司,领导Stability的专业音乐业务。
许多AI公司正试图通过聘请音乐行业高管来增强其可信度。今年早些时候,Suno聘请了前Merlin首席执行官Jeremy Sirota担任首席商务官。ElevenLabs也从独立音乐出版商Kobalt聘请了Derek Cournoyer,担任其音乐业务的战略负责人。
Q&A
Q1:Stability Audio 3.0能生成多长的音乐?
A:Stability Audio 3.0的中型和大型模型能够创作长达6分20秒的完整音乐作品,并能保持音乐结构和旋律基调。这是2024年发布的Stable Audio 2.0生成能力的两倍多,相比之前的开放版本有了巨大提升。
Q2:Stability Audio 3.0有哪些模型可以免费使用?
A:Stability AI以开放权重的形式提供小型音效模型、小型模型和中型模型,供任何人免费使用和修改。大型模型仅通过API和付费自托管服务提供,年收入超过100万美元的公司需要获得企业许可证。
Q3:Stability AI如何解决音乐生成的版权问题?
A:Stability AI与华纳音乐集团和环球音乐集团签署了合作协议,共同开发模型和音乐创作工具。该公司表示,其最新的音频模型系列是基于完全授权的数据构建的,以避免像Suno和Udio那样面临版权诉讼。
好文章,需要你的鼓励
仿人机器人与自动驾驶汽车在区域架构、功能安全及雷达传感方面高度相似。多分辨率摄像头组合可更好地模拟人类视野,兼顾广角低保真与局部高精度需求。自然运动需实时计算正逆运动学、距离与深度,同时须兼顾功耗效率。当前视觉与基础操控技术最为成熟,而触觉、全身协调及非结构化环境中的移动能力仍是主要挑战。业界正借鉴自动驾驶经验,加速推进仿人机器人的规模化落地。
这项研究提出Epi2Diff方法,通过将大型推理模型的解题思考过程拆解为认知片段序列,提取过程特征预测考题对人类的难度,在四个真实考试数据集上超越了所有对比基线。
随着AI技术发展,攻击者可融合白市、灰市及黑市数据,构建个人及其环境的数字孪生体,使定向攻击更为便捷。专家指出,AI与网络安全的核心交汇点是数据本身。防御AI数据融合攻击需依赖硬件信任根、强加密、安全密钥存储及严格的数据匿名化措施。芯片架构师需将安全设计嵌入硬件层,确保数据完整性验证、隔离执行及认证数据流,以应对日益复杂的运行时攻击面。
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。