AI初创公司 Stability AI 推出了 Stable Audio Open Small,一款“立体声”音频生成 AI 模型。公司宣称该模型是市场上速度最快的,同时高效到足以在智能手机上运行。
Stable Audio Open Small 是 Stability AI 与处理器制造商 Arm 合作的结晶。Arm 生产许多平板、手机及其他移动设备内的处理器。虽然已有不少利用 AI 技术生成音频的应用(如 Suno 和 Udio),但大多数依赖云端处理,这意味着它们无法离线使用。
Stability 同时宣称,Stable Audio Open Small 的训练数据集完全由免版权音频库 Free Music Archive 和 Freesound 中的歌曲构成。这与前述 Suno 和 Udio 的训练数据集形成了对比,后者据称包含受版权保护的内容,从而带来知识产权风险。
Stable Audio Open Small 拥有 341 百万个参数,并经过针对 Arm CPU 的优化。(参数,有时也称作“权重”,是指导模型行为的内部组件。)该模型专为快速生成短音频样本和音效(例如,鼓点及乐器即兴旋律)而设计。Stability AI 表示,它可以在智能手机上于不到 8 秒内生成多达 11 秒的音频。
该模型并非没有局限性。Stable Audio Open Small 目前仅支持英文提示,并且 Stability 在其文档中指出,该模型无法生成逼真的人声或高质量的歌曲。Stability 警告称,模型在不同音乐风格上的表现也存在差异,这主要是由于训练数据偏向西方音乐所致。
对于开发者而言,另一个潜在问题在于 Stable Audio Open Small 的使用条款较为严格。研究人员、爱好者以及年收入不足 100 万美元的企业可以免费使用,但开发者和年收入超过 100 万美元的组织则必须支付 Stability 的企业许可费用。
作为背后支持的公司,Stability 以其热门图像生成模型 Stable Diffusion 闻名。去年,在包括 Eric Schmidt 和 Napster 创始人 Sean Parker 在内的投资者试图扭转局面时,Stability 获得了新一轮资金。据称,该公司联合创始人及前 CEO Emad Mostaque 管理不善,导致公司陷入财务困境、员工纷纷辞职、与 Canva 的合作流产,以及投资者对公司前景日益担忧。
在过去几个月中,Stability 已聘请新 CEO,并邀请电影制片人 James Cameron 加入董事会,同时发布了数款全新的图像生成模型。
好文章,需要你的鼓励
谷歌宣布开始向Google TV Streamer推出Gemini智能助手,取代原有的Google Assistant。用户可通过更自然的语音交互获取内容推荐,如询问适合夫妻共看的电影或了解剧集剧情。Gemini还支持教育和生活指导功能,能解答各类问题并通过YouTube视频提供DIY项目指导。该更新将在未来几周内向18岁以上用户推送,这是谷歌用Gemini全面替代Google Assistant计划的重要步骤。
香港科技大学团队提出DGPO方法,通过直接学习群体偏好信息,让AI图像生成模型训练速度提升30倍。该方法避免了传统强化学习的低效随机探索,使用确定性采样器生成高质量训练样本,在GenEval基准测试中将性能从63%提升至97%。这一突破显著降低了训练成本,为AI图像生成技术的普及和应用奠定了基础。
在AI快速发展的背景下,创始人与投资者的合作关系变得更加重要。尽管基础模型厂商正主导市场整合,但众多初创企业仍在推动AI创新边界。专家指出,这种合作关系应被视为长期婚姻而非简单商业交易。在竞争激烈的AI市场中,投资者需要更快做出决策,而创始人必须具备快速迭代能力。单位经济学、人才密度和产品扩展能力成为关键评估指标,双方需要建立良好关系以应对这个新兴市场的挑战。
香港城市大学和阿里巴巴集团联合研究团队开发了A?SEARCH系统,专门解决AI在处理模糊问题时只提供单一答案的局限性。该系统通过自动化流程识别并验证多个合理答案,在八个问答数据库的测试中表现出色,仅用单次回答就超越了需要多次尝试的大型传统系统,为构建更智能的问答AI开辟了新路径。