几年前,"生成式 AI 视频模型"还是一个不存在的概念。
如今,已经出现了数十种此类模型,其中许多都能够在几秒钟内根据文本提示或用户上传的图像和现有视频片段,渲染出超高清、超逼真的好莱坞级别视频。如果你最近几个月一直在关注 VentureBeat,你一定看到过关于这些模型和背后公司的报道,从 Runway 的 Gen-3 到 Google 的 Veo 2,再到 OpenAI 推迟已久但终于发布的 Sora,以及 Luma AI、Pika 和中国新秀 Kling 和 Hailuo。就连阿里巴巴和一家名为 Genmo 的创业公司都推出了开源视频模型。
这些模型已经被用于制作多部重要影片,从《瞬息全宇宙》到 HBO 的《真探:极夜国度》,以及玩具反斗城和可口可乐的音乐视频和电视广告。尽管好莱坞和电影制作人相对迅速地接纳了 AI,但仍然存在一个重大潜在问题:版权问题。
据我们所知,大多数 AI 视频模型创业公司并未公开详细的训练数据信息,它们大多使用从网络上收集或其他档案来源获取的大量视频进行训练,这些视频可能包含版权内容,而版权所有者可能并未明确授权这些 AI 视频公司使用。事实上,Runway 正面临一项集体诉讼 (目前仍在审理中),而 Nvidia 据报道也为此目的抓取了大量 YouTube 视频。关于抓取包括视频在内的数据是否构成合理和转换性使用,争议仍在继续。
现在,对版权问题有顾虑、不想使用存在争议的模型的用户有了新的选择。一家名为 Moonvalley 的创业公司 (由前 Google DeepMind 员工以及来自 Meta、Microsoft 和 TikTok 等公司的研究人员创立) 推出了 Marey,这是一个专为好莱坞制片厂、电影制作人和企业品牌设计的生成式 AI 视频模型。Marey 被定位为"干净的"先进基础 AI 视频模型,仅使用自有和获得授权的数据进行训练,为那些使用抓取内容开发的 AI 模型提供了一个符合伦理的替代选择。
"人们说,不使用抓取的数据就无法构建尖端的 AI 视频模型,这在技术上是不可行的,"Moonvalley 的 CEO 兼联合创始人 Naeem Talukdar 在最近与 VentureBeat 的视频通话采访中表示。"我们证明了这是可行的。"
Marey 目前仅向受邀用户开放测试,它与 Adobe 的 Firefly Video 模型一起,成为了企业级视频生成模型。Adobe 表示其模型仅使用授权数据和 Adobe Stock 数据进行训练 (尽管一些贡献者对此表示不满),并为企业使用提供赔偿保证。Moonvalley 也在其文件第 7 条中提供赔偿保证,承诺将自费为客户提供辩护。
Moonvalley 希望这些特性能够吸引大型制片厂 (即使其他公司如 Runway 也在与它们达成合作) 和电影制作人,在不断增长的 AI 视频创作选项中脱颖而出。
更"符合伦理"的 AI 视频?
Marey 是 Moonvalley 与艺术家主导的 AI 电影和动画工作室 Asteria 合作的成果。该模型旨在协助而非取代创意专业人士,为电影制作人提供新的 AI 驱动视频制作工具,同时保持传统行业标准。
"我们坚信,如果不与行业合作,就无法在这个行业获得主流采用,"Talukdar 说。"行业已经明确表示,要让他们真正使用这些模型,我们需要找出如何构建一个干净的模型。在今天之前,主流观点认为这是做不到的。"
Moonvalley 没有从互联网抓取内容,而是直接与创作者建立关系来获取他们的视频授权。公司花了数月时间建立这些合作伙伴关系,确保所有用于训练的数据都是合法获得并完全授权的。
Moonvalley 的授权策略也旨在通过补偿创作者的贡献来支持他们。
"现在人们开始听说我们在做什么,大多数合作关系都是主动找上门来的,"Talukdar 说。"对于小城镇的创作者来说,他们的很多视频素材都闲置着。我们想帮助他们将其变现,我们想要做以艺术家为中心的模型。这最终成为了一种非常好的关系。"
Talukdar 告诉 VentureBeat,虽然公司仍在评估和修改其补偿模式,但通常根据视频时长对创作者进行补偿,在固定期限的许可协议下 (如 12 个月或 4 个月) 按小时或按分钟支付费用。如果内容继续被使用,这允许可能的定期付款。
公司的目标是让高端视频制作更加便捷和经济,使电影制作人、制片厂和广告商能够在没有法律或伦理顾虑的情况下探索 AI 生成的故事叙述。
超越文本提示、图像和镜头指导的更多电影摄影控制
Talukdar 解释说,Moonvalley 的 Marey AI 视频模型采用了与现有 AI 视频模型不同的方法,专注于专业级制作而非消费者应用。
"如今大多数生成式视频公司都更注重消费者,"他说。"他们构建简单的模型,你可以提示聊天机器人,生成一些片段并添加酷炫效果。我们的重点不同:好莱坞制片厂需要什么技术?大品牌需要什么来制作超级碗广告?"
Marey 在 AI 生成视频方面引入了几项进步,包括:
原生 HD 生成 - 不依赖于升尺度生成高清视频,减少视觉伪影
延长视频长度 - 与大多数只能生成几秒钟视频的 AI 视频模型不同,Marey 可以一次性创建 30 秒的序列
图层编辑 - 与其他生成式视频模型不同,Marey 允许用户分别编辑前景、中景和背景,提供更精确的视频构图控制
故事板和草图输入 - Marey 不仅仅依赖文本提示 (如许多 AI 模型所做的那样),还使电影制作人能够使用故事板、草图甚至实景参考来创作,这对专业人士来说更直观
对条件输入的更好响应 - 该模型设计为能更好地解释外部输入,如绘图和动作参考,使 AI 生成的视频更可控
"原生生成式"视频编辑器 - Moonvalley 正在为 Marey 开发配套软件,该软件作为原生生成式视频编辑工具,帮助用户更有效地管理项目和时间线
"该模型本身在可控性方面做了很大工作,"Talukdar 解释道。"你需要对输出有更多的控制——能够改变角色。这是第一个允许进行基于图层编辑的模型,所以你可以分别编辑前景、中景和背景。这也是第一个为好莱坞打造的模型,专门为制作而设计。"
此外,他告诉 VentureBeat,Marey 依赖于一个结合了扩散和 Transformer 架构的混合模型。
"这些模型是扩散-transformer 模型,所以有 transformer 架构,然后在层中有扩散,"Talukdar 说。"当你引入可控性时,通常是通过这些层来实现的。"
获得知名风投资金但不及其他 AI 视频创业公司 (暂时)
Moonvalley 本周还宣布完成由 Bessemer Venture Partners、Khosla Ventures 和 General Catalyst 领投的 7000 万美元种子轮融资。投资者 Hemant Taneja、Samir Kaul 和 Byron Deeter 也加入了公司董事会。
Talukdar 指出,Moonvalley 的融资额目前远低于一些竞争对手——据报道,Runway 在几轮融资中总共筹集了 2.7 亿美元——但公司通过组建精英 AI 研究人员和工程师团队优化了资源。
"我们筹集了约 7000 万美元,确实比竞争对手少很多,"他说。"但这真正归结于团队——拥有一个能够更高效地构建架构、计算等各种事物的团队。"
Marey 目前处于限制访问阶段,由精选的制片厂和电影制作人测试该模型。Moonvalley 计划在未来几周内逐步扩大访问范围。
"目前有一些制片厂正在获取访问权限,我们还有一个包含几十名电影制作人的 alpha 测试组在使用它,"Talukdar 确认道。"希望在几周内能完全开放使用,最坏的情况也是在几个月内。"
随着 Marey 的推出,Moonvalley 和 Asteria 旨在成为 AI 辅助电影制作的领军者,为制片厂和品牌提供一个能够集成 AI 而不损害创意完整性的解决方案。但随着 Runway、Pika 和 Hedra 等 AI 视频创业竞争对手不断添加角色声音和动作等新功能,这个领域变得越来越具有竞争性。
好文章,需要你的鼓励
本文探讨了AI驱动的网络攻击如何在短短51秒内突破网络防线,并介绍了CISO们应对这些超高速攻击的策略。重点包括零信任架构、身份验证强化、AI驱动的实时威胁检测等。文章强调了迅速撤销会话令牌、统一端点和云安全、以及从恶意软件检测转向凭证滥用预防的重要性。
Lovelace Studio 正在开发名为 Nyric 的 AI 工具,帮助玩家在生存制作类沙盒游戏中打造自己的游戏世界。玩家可以使用 AI 工具创建独特风格的世界,并与其他玩家互动。该工具旨在赋予独立创作者和社交玩家更多能力,让他们能够轻松构建和连接自己的虚拟世界。
随着AI代码生成工具的广泛应用,企业面临着新的挑战。AI生成的代码可能存在安全漏洞、架构问题和合规风险。为此,企业需要实施严格的验证流程,认识AI在复杂代码库中的局限性,理解AI代码的特有问题,要求开发人员对代码负责,并建立高效的AI工具审批机制。同时,专门的代码分析工具也变得不可或缺。
AI 语音克隆技术的滥用正日益成为企业面临的重大安全威胁。近期多起高调事件显示,不法分子利用 AI 生成的虚假音频视频进行诈骗。目前许多语音克隆应用缺乏有效防护措施,企业领导人的公开音频很容易被用于克隆。专家呼吁采取多因素认证等措施加强防范,并预计未来将出台更多监管措施和检测技术来应对这一威胁。