AI 视频创业公司 Runway 今日宣布推出其最新的视频合成模型。这个名为 Gen-4 的模型声称解决了 AI 视频生成中的几个关键问题。
其中最主要的是实现了跨镜头中角色和物体的一致性。如果你看过任何 AI 制作的短片,可能已经注意到它们要么是梦幻般的画面序列,虽然主题相关但现实感不足——更像是情绪表达而非连贯的叙事。
Runway 表示,只要在其界面中提供角色或物体的单一参考图像,Gen-4 就能保持其一致性。
公司发布的示例视频展示了同一名女性在不同场景中的多个镜头,以及同一座雕像在完全不同的环境中出现,在各种光照条件下保持着基本一致的外观。
同样,Gen-4 旨在让使用该工具的电影制作者能够在同一序列中从多个角度拍摄同一环境或主体。这在 Gen-2 和 Gen-3 中几乎是不可能实现的。该工具此前在保持风格统一性方面表现出色,但无法在同一场景中生成多个角度的画面。
Runway 上一次重大模型更新是在 2024 年 6 月推出的 Gen-3。该更新将用户可制作的视频长度从 2 秒延长到 10 秒,并提供了比其前身 Gen-2 更高的一致性和连贯性。
在竞争激烈的市场中,Runway 的独特定位
Runway 于 2023 年 2 月向用户发布了其首个公开可用的视频合成产品。Gen-1 的创作更多是好奇心的产物,而非实用工具,但后续优化使该工具能够在实际项目中有限度地使用。
例如,它被用于制作电影《瞬息全宇宙》中两块带有眼球贴纸的石头在悬崖上对话的场景,也被用于制作《柯尔伯特深夜秀》的视觉效果。
与许多由 AI 研究人员或硅谷企业家创立的竞争对手不同,Runway 由纽约大学蒂施艺术学院的艺术系学生于 2018 年创立——来自智利的 Cristóbal Valenzuela 和 Alejandro Matamala,以及来自希腊的 Anastasis Germanidis。
它是最早向公众发布可用视频生成工具的公司之一,其团队还为 Stable Diffusion 模型做出了基础性贡献。
虽然在支出上远不及 OpenAI 等竞争对手,但当大多数竞争对手都在发布通用视频创作工具时,Runway 则寻求在行业中获得类似 Adobe 的地位。它专注于面向设计师和电影制作者等创意专业人士进行营销,并实现了旨在将 Runway 融入现有创意工作流程的工具。
作为支持工具(而非独立创意产品)的定位帮助 Runway 与电影公司 Lionsgate 达成协议,Lionsgate 允许 Runway 合法使用其电影库训练模型,而 Runway 则为 Lionsgate 提供定制工具用于制作或后期制作。
不过,Runway 与 Midjourney 等公司一起,正面临艺术家们提起的广受关注的知识产权诉讼,这些艺术家声称这些公司非法使用他们的作品训练模型,因此并非所有创意人士都支持这种做法。
除了宣布与 Lionsgate 的合作关系外,Runway 从未公开分享其模型训练所使用的数据。然而,404 Media 的一份报告似乎揭示,至少部分训练数据包括从知名网红、电影制作室等 YouTube 频道抓取的视频。
Gen-4 的未来有待验证
Gen-4 声称的改进针对的是创意工作者们的抱怨,即这些视频合成工具由于场景一致性和理解能力有限而使用受限。OpenAI 的 Sora 等竞争工具也试图改进这些限制,但效果有限。
Runway 宣布 Gen-4 今天向"所有付费计划和企业客户"开放。然而,当我登录我的付费账户时,Gen-4 虽然出现在模型选择器中,但旁边标注着"即将推出",目前还无法选择。Runway 可能正在缓慢地向账户推出该模型,以避免服务器负载问题。
无论何时向所有用户开放,该模型都只对付费计划开放。个人非企业计划起价为每月 15 美元,最高可达每月 95 美元,选择年度计划可享受 20% 的折扣。企业账户年费为 1,500 美元。
这些计划每月为用户提供最多 2,250 个积分,但由于生成可用的 AI 视频需要反复调整,这些积分可能无法生成太多可用视频。95 美元/月的个人计划中有一个"探索模式",允许以较慢的速度无限生成,这是一种逐步找到所需输出的方式。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。