里通义开源音频生成模型，能模仿音效师为视频配音

通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo等模型，全面覆盖语音合成、音频生成、音频理解等场景。

7月1日消息，阿里通义实验室开源了旗下首个音频生成模型ThinkSound，该模型首次将CoT（Chain-of-Thought，思维链）应用到音频生成领域，让AI可以像专业音效师一样逐步思考，捕捉视觉细节，生成与画面同步的高保真音频。

目前，ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源，开发者可免费下载和体验。

阿里开源音频生成模型ThinkSound

视频生成音频（V2A）技术是多媒体编辑和视频内容创作领域最重要的技术之一，但该技术的发展速度仍存在诸多技术挑战，例如业界现有的V2A技术仍缺乏对视觉对应声学细节的深入理解，导致生成的音频较为通用，甚至与关键视觉事件错位，难以满足专业创意场景中对时序和语义连贯性的严格要求。

为了解决现有视频转音频技术难以捕捉画面中动态细节和时序的难题，通义团队首次将思维链推理引入多模态大模型，可以模仿人类音效师的多阶段创作流程，实现对视觉事件与相应声音之间深度关联的精准建模，例如先分析视觉动态、再推断声学属性，最后按照时间顺序合成与环境相符的音效。不仅如此，该团队还构建了首个带思维链标注的音频数据集AudioCoT，该数据集融合了2531.8小时的多源异构数据，让模型在音频生成与编辑任务时做到“知其然、知其所以然”。

在开源的VGGSound测试集上，ThinkSound的核心指标相比MMAudio、V2A-Mappe、V-AURA等现有主流方法均实现了15%以上的提升。例如，在openl3空间中Fréchet 距离（FD）上，ThinkSound 相比 MMAudio的43.26 降至34.56（越低越好），接近真实音频分布的相似度提高了20%以上；在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了1.52和1.32的成绩，均为同类模型最佳。

里通义开源音频生成模型，能模仿音效师为视频配音

在开源的VGGSound测试集上，ThinkSound多项核心指标位居第一

在MovieGen Audio Bench测试集上，ThinkSound的表现大幅领先Meta推出的音频生成模型Movie Gen Audio，展现了模型在影视音效、音频后期、游戏与虚拟现实音效生成等领域的应用潜力。

里通义开源音频生成模型，能模仿音效师为视频配音

ThinkSound大幅领先Meta旗下Movie Gen Audio

目前，通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo等模型，全面覆盖语音合成、音频生成、音频理解等场景。

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

里通义开源音频生成模型，能模仿音效师为视频配音

来源：至顶网人工智能频道

2025

07/01

12:26

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

216年过去了，人类离攻克癌症还有多远？AI医疗或许会是那个“破局者”

夸克发布首个可生成完整志愿报告的Agent

KO 满血版DeepSeek？AM-Thinking-V1，32B干翻一众千亿级大模型

字节Seed团队绝地翻盘，发现多模态模型也有涌现时刻，开源BAGEL模型

打造“全球一朵云”，广汽迈入出海3.0时代

大模型应该怎么用？我们大多数人都错了，微软最新研究：大模型对话次数越多，性能越差

夸克健康大模型通过副主任医师考试，12门学科超合格线

解锁对象存储+TP数据库，OceanBase快人一步

大模型应用开发，CPU如何发光发热？

通义App全面上线千问3 第一时间体验全球最强开源模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: