阿里云已开源其视频基础模型系列,为企业和研究人员提供视频创作能力。
通义万象 (Wan) 2.1 系列包含 140 亿和 13 亿参数两个版本的四个模型,专门用于从文本和图像输入生成高质量视频。这些模型可以在阿里云的 AI 模型社区 Model Scope 和 Hugging Face 平台上下载。
据阿里云介绍,Wan 2.1 是首个支持中英文文本效果的视频生成模型。其生成逼真视觉效果的能力源于对复杂动作的处理、像素质量的提升、物理原理的遵循以及指令执行精度的优化。
这些能力使 Wan 2.1 在视频生成模型基准测试套件 VBench 排行榜上位居榜首。它也是 Hugging Face 的 VBench 排行榜前五名中唯一的开源模型。
不同的模型可满足不同的需求和计算资源要求。140 亿参数模型在创建具有复杂动态效果的高质量视觉内容方面表现出色,而 13 亿参数模型则在生成质量和计算效率之间取得平衡,普通笔记本电脑用户可以在约 4 分钟内生成一个 480p 的 5 秒视频。
训练视频基础模型需要大量计算资源和高质量训练数据。开源可以降低更多企业利用 AI 的门槛,使他们能够以具有成本效益的方式创建满足其需求的高质量视觉内容。
除了 Wan 2.1,阿里云还开源了其通义千问 (Qwen) 基础模型,该模型在 HuggingFace 开源大语言模型排行榜上名列前茅,性能可与全球领先模型相媲美。目前,在 Hugging Face 上基于通义千问系列构建的衍生模型超过 10 万个,使其成为全球最大的 AI 模型系列之一。
该公司还提供 AI Model Studio,让大型企业能够访问其基础模型和模型训练工具,以加快在受控环境中部署大语言模型。
通过 Model Studio,企业可以监控和识别风险内容,基于负责任的 AI 原则过滤或阻止不良信息。他们还可以通过创建、标注和管理训练数据集来训练基础模型,使用可调参数自定义模型训练,以及轻松评估和部署基础模型。
本周早些时候,阿里云表示将在未来三年投资 3800 亿元人民币 (约 530 亿美元) 用于云计算和人工智能基础设施,超过过去十年在云计算和 AI 方面的总支出。
阿里巴巴云智能部门在最新一季度报告中显示,剔除合并子公司后,收入同比增长 11%。得益于其 AI 托管和相关产品的需求增长,其 AI 相关产品收入连续第六个季度实现三位数增长。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。