里通义开源音频生成模型，能模仿音效师为视频配音

通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo等模型，全面覆盖语音合成、音频生成、音频理解等场景。

7月1日消息，阿里通义实验室开源了旗下首个音频生成模型ThinkSound，该模型首次将CoT（Chain-of-Thought，思维链）应用到音频生成领域，让AI可以像专业音效师一样逐步思考，捕捉视觉细节，生成与画面同步的高保真音频。

目前，ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源，开发者可免费下载和体验。

阿里开源音频生成模型ThinkSound

视频生成音频（V2A）技术是多媒体编辑和视频内容创作领域最重要的技术之一，但该技术的发展速度仍存在诸多技术挑战，例如业界现有的V2A技术仍缺乏对视觉对应声学细节的深入理解，导致生成的音频较为通用，甚至与关键视觉事件错位，难以满足专业创意场景中对时序和语义连贯性的严格要求。

为了解决现有视频转音频技术难以捕捉画面中动态细节和时序的难题，通义团队首次将思维链推理引入多模态大模型，可以模仿人类音效师的多阶段创作流程，实现对视觉事件与相应声音之间深度关联的精准建模，例如先分析视觉动态、再推断声学属性，最后按照时间顺序合成与环境相符的音效。不仅如此，该团队还构建了首个带思维链标注的音频数据集AudioCoT，该数据集融合了2531.8小时的多源异构数据，让模型在音频生成与编辑任务时做到“知其然、知其所以然”。

在开源的VGGSound测试集上，ThinkSound的核心指标相比MMAudio、V2A-Mappe、V-AURA等现有主流方法均实现了15%以上的提升。例如，在openl3空间中Fréchet 距离（FD）上，ThinkSound 相比 MMAudio的43.26 降至34.56（越低越好），接近真实音频分布的相似度提高了20%以上；在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了1.52和1.32的成绩，均为同类模型最佳。

里通义开源音频生成模型，能模仿音效师为视频配音

在开源的VGGSound测试集上，ThinkSound多项核心指标位居第一

在MovieGen Audio Bench测试集上，ThinkSound的表现大幅领先Meta推出的音频生成模型Movie Gen Audio，展现了模型在影视音效、音频后期、游戏与虚拟现实音效生成等领域的应用潜力。

里通义开源音频生成模型，能模仿音效师为视频配音

ThinkSound大幅领先Meta旗下Movie Gen Audio

目前，通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo等模型，全面覆盖语音合成、音频生成、音频理解等场景。

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

里通义开源音频生成模型，能模仿音效师为视频配音

来源：至顶网人工智能频道

2025

07/01

12:26

分享

点赞

人工智能是否存在泡沫风险的深度分析

AI系统在压力下学会战略性欺骗的深层原因

数据中心备份电力系统对比分析

Paxos以超1亿美元收购加密钱包初创公司Fordefi

腾讯发布"读图神器"HunyuanOCR，只用1%的参数就打败了行业巨头？

联想天津工厂入选“世界智能制造十大科技进展” 以零碳智造打造业内标杆

联想万全异构智算研发团队入选IEEE CyberSciTech 2025，RNL技术成果获国际认可！

首款搭载千问的AI硬件：夸克AI眼镜新品发布 次日门店现排队潮

ServiceNow或以超10亿美元收购网络安全初创公司Veza

谷歌云推出"PanyaThAI"计划加速泰国AI应用

英国产学合作推进光纤射频通信技术商业化进程

阿里巴巴推出可换电池设计的Quark AI智能眼镜

216年过去了，人类离攻克癌症还有多远？AI医疗或许会是那个“破局者”

夸克发布首个可生成完整志愿报告的Agent

KO 满血版DeepSeek？AM-Thinking-V1，32B干翻一众千亿级大模型

字节Seed团队绝地翻盘，发现多模态模型也有涌现时刻，开源BAGEL模型

打造“全球一朵云”，广汽迈入出海3.0时代

大模型应该怎么用？我们大多数人都错了，微软最新研究：大模型对话次数越多，性能越差

夸克健康大模型通过副主任医师考试，12门学科超合格线

解锁对象存储+TP数据库，OceanBase快人一步

大模型应用开发，CPU如何发光发热？

通义App全面上线千问3 第一时间体验全球最强开源模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

首款搭载千问的AI硬件：夸克AI眼镜新品发布次日门店现排队潮