虽然大型语言模型(LLM)在文本生成方面展示了令人印象深刻的能力,但我们发现它们的能力尚未推广到音乐(人类的创造性语言)。
我们推出 ChatMusician,这是一个集成了内在音乐能力的开源LLM。它基于在文本兼容的音乐表示、ABC 表示法上对 LLaMA2 进行持续的预训练和微调,并且音乐被视为第二语言。ChatMusician 可以使用纯文本标记器理解和生成音乐,无需任何外部多模式神经结构或标记器。
有趣的是,赋予音乐能力并不会损害语言能力,甚至可以取得略高的 MMLU 分数。我们的模型能够根据文本、和弦、旋律、主题、音乐形式等创作结构良好的完整音乐,超越 GPT-4 基线。
在我们精心策划的大学级音乐理解基准测试 MusicTheoryBench 上,ChatMusician 在零样本设置上明显超越了 LLaMA2 和 GPT-3.5。我们的工作表明,LLM可以成为出色的音乐压缩器,但仍有大量领域有待征服。
我们在 GitHub 上发布了我们的 4B 代币音乐语言语料库 MusicPile、收集的 MusicTheoryBench、代码、模型和演示。

参考文献:
[1] ChatMusician: Understanding and Generating Music Intrinsically with LLM(通过LLM本质上理解和生成音乐)
[2] 论文:https://huggingface.co/papers/2402.16153
[3] 项目:https://shanghaicannon.github.io/ChatMusician/
[4] https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/WDMvwieajdGIJXfJ830Y0.mp4
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。