Runway Gen-4 解决了 AI 视频生成的最大难题:跨场景角色一致性

Runway AI公司推出了迄今为止最先进的AI视频生成模型Gen-4,实现了多镜头间角色和场景的一致性,这是之前大多数AI视频生成器无法做到的。该模型可生成720p分辨率的5-10秒视频片段,并计划本周推出更多功能。这一突破可能彻底改变电影制作流程,引发了对版权和就业的讨论,也为创作者带来了新的机遇和挑战。

Runway AI 公司今天推出了其最先进的 AI 视频生成模型,开启了可能改变电影制作的工具竞争的新阶段。新的 Gen-4 系统实现了多个镜头之间角色和场景的一致性——这是目前大多数 AI 视频生成器都无法实现的功能。

这家总部位于纽约、获得 Google、Nvidia 和 Salesforce 支持的初创公司向所有付费用户和企业客户发布了"Gen-4",并计划在本周晚些时候推出更多功能。用户可以生成 720p 分辨率的 5 秒和 10 秒视频片段。

此次发布恰逢 OpenAI 的图像生成功能引发文化现象之际,数百万用户通过 ChatGPT 请求生成吉卜力工作室风格的图像。这股病毒式传播趋势如此受欢迎,以至于暂时使 OpenAI 的服务器崩溃,CEO Sam Altman 在推特上表示"我们的 GPU 都要融化了"。吉卜力风格的图像也引发了关于版权的激烈争议,许多人质疑 AI 公司是否可以合法模仿独特的艺术风格。

视觉连贯性:AI 电影制作中缺失的一环

角色和场景的一致性——在多个镜头和角度之间保持相同的视觉元素——一直是 AI 视频生成的致命弱点。当角色的面部在镜头切换间微妙变化,或背景元素无故消失时,内容的人工特性会立即被观众察觉。

这个挑战源于这些模型的基本工作原理。之前的 AI 生成器将每一帧都视为独立的创作任务,帧与帧之间只有松散的联系。这就像让一屋子艺术家各自绘制电影的一帧,而不知道前后内容——结果必然视觉不连贯。

Runway 的 Gen-4 似乎通过创建视觉元素的持久性记忆解决了这个问题。一旦确立了角色、物体或环境,系统就能在保持其核心特征的同时从不同角度渲染它。这不仅是技术上的改进,更是从创建有趣的视觉片段到讲述完整故事的质的飞跃。

根据 Runway 的文档,Gen-4 允许用户提供主体的参考图像并描述所需的构图,AI 将从不同角度生成保持一致性的输出。公司声称该模型可以在保持主体、物体和风格一致性的同时渲染出具有真实运动效果的视频。

为展示模型的功能,Runway 发布了几部完全由 Gen-4 创作的短片。其中一部名为"纽约是个动物园"的影片通过在富有电影感的纽约场景中放置真实动物来展示模型的视觉效果。另一部名为"寻回"的影片讲述了探险者寻找神秘之花的故事,制作时间不到一周。

从面部动画到世界模型:Runway 的 AI 电影制作演进

Gen-4 是在 Runway 之前工具的基础上发展而来。去年 10 月,公司发布了 Act-One 功能,允许电影制作者捕捉智能手机视频中的面部表情并转移到 AI 生成的角色上。次月,Runway 为其 Gen-3 Alpha Turbo 模型添加了先进的类 3D 相机控制,使用户能够在保持角色形态的同时对场景进行缩放。

这一发展轨迹揭示了 Runway 的战略愿景。当竞争对手专注于创建更逼真的单一图像或片段时,Runway 一直在组建完整的数字制作流程。这种方法更接近真实电影制作者的工作方式——将表演、镜头覆盖和视觉连贯性等问题视为相互关联的挑战,而不是孤立的技术难题。

从面部动画工具到一致性世界模型的演进表明,Runway 理解 AI 辅助电影制作需要遵循传统制作的逻辑才能真正实用。这是从创建技术演示到构建专业人士可以实际整合到工作流程中的工具之间的区别。

AI 视频的数十亿美元之战升温

对 Runway 来说,财务影响十分重大。据报道,该公司正在进行新一轮融资,估值将达到 40 亿美元。根据财务报告,在推出新产品和视频生成模型 API 后,这家初创公司计划今年实现 3 亿美元的年化收入。

Runway 已与好莱坞建立合作关系,与 Lionsgate 达成协议,基于该制片厂超过 20,000 部作品的目录开发定制 AI 视频生成模型。公司还设立了"百部电影基金",为使用 AI 制作电影的电影制作者提供最高 100 万美元的资金支持。

"我们相信最好的故事尚未被讲述,但传统融资机制往往忽视了更大行业生态系统中的新兴愿景,"Runway 在其基金网站上解释道。

然而,这项技术也引起了电影业专业人士的担忧。2024 年动画工会委托进行的一项研究发现,75% 采用 AI 的电影制作公司已经减少、整合或取消了工作岗位。该研究预测,到 2026 年,生成式 AI 将影响超过 10 万个美国娱乐业岗位。

AI 创意爆发引发版权质疑

与其他 AI 公司一样,Runway 面临着关于训练数据的法律审查。该公司目前正在应对艺术家提起的诉讼,这些艺术家声称他们的版权作品在未经许可的情况下被用于训练 AI 模型。Runway 以合理使用原则作为辩护,但法院尚未对这种版权法的应用做出明确裁决。

版权争议在上周随着 OpenAI 的吉卜力工作室功能而加剧,该功能允许用户在未经明确许可的情况下生成宫崎骏动画工作室独特风格的图像。与拒绝生成在世艺术家风格但允许工作室风格的 OpenAI 不同,Runway 尚未公开详细说明其关于风格模仿的政策。

随着 AI 模型变得越来越复杂,这种区别感觉越来越武断。从广泛艺术传统中学习和复制特定创作者风格之间的界限已经模糊得几乎看不见。当 AI 能够完美模仿宫崎骏花费数十年发展的视觉语言时,我们是在要求它复制工作室还是艺术家本人,这还重要吗?

当被问及训练数据来源时,Runway 以竞争考虑为由拒绝提供具体信息。这种不透明已成为 AI 开发者的标准做法,但仍然是创作者争议的焦点。

工具已至,我们将讲述怎样的故事?

随着营销机构、教育内容创作者和企业传播团队探索如何使用 Gen-4 等工具简化视频制作,问题从技术能力转向创意应用。

对电影制作者来说,这项技术既代表机遇也意味着颠覆。独立创作者获得了以前只有大型制片厂才能使用的视觉效果能力,而传统视觉特效和动画专业人士则面临着不确定的未来。

一个不舒服的事实是,技术限制从来不是阻止大多数人制作引人入胜电影的原因。保持视觉连贯性的能力不会突然创造出一代讲故事的天才。然而,它可能会消除足够多的摩擦,使更多人无需专业培训或昂贵设备就能尝试视觉叙事。

也许 Gen-4 最深刻的方面不是它能创造什么,而是它暗示了我们与视觉媒体的未来关系。我们正在进入一个制作瓶颈不是技术技能或预算,而是想象力和目的的时代。在一个任何人都能创造他们能描述的任何图像的世界里,重要的问题变成了:什么值得展示?

当我们进入一个制作电影只需要一张参考图片和一个提示的时代,最紧迫的问题不是 AI 是否能制作引人入胜的视频,而是当我们掌握了表达任何内容的工具时,我们能否找到值得表达的有意义的内容。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

04/01

14:36

分享

点赞

邮件订阅