AI 视频创业公司 Runway 今日宣布推出其最新的视频合成模型。这个名为 Gen-4 的模型声称解决了 AI 视频生成中的几个关键问题。
其中最主要的是实现了跨镜头中角色和物体的一致性。如果你看过任何 AI 制作的短片,可能已经注意到它们要么是梦幻般的画面序列,虽然主题相关但现实感不足——更像是情绪表达而非连贯的叙事。
Runway 表示,只要在其界面中提供角色或物体的单一参考图像,Gen-4 就能保持其一致性。
公司发布的示例视频展示了同一名女性在不同场景中的多个镜头,以及同一座雕像在完全不同的环境中出现,在各种光照条件下保持着基本一致的外观。
同样,Gen-4 旨在让使用该工具的电影制作者能够在同一序列中从多个角度拍摄同一环境或主体。这在 Gen-2 和 Gen-3 中几乎是不可能实现的。该工具此前在保持风格统一性方面表现出色,但无法在同一场景中生成多个角度的画面。
Runway 上一次重大模型更新是在 2024 年 6 月推出的 Gen-3。该更新将用户可制作的视频长度从 2 秒延长到 10 秒,并提供了比其前身 Gen-2 更高的一致性和连贯性。
在竞争激烈的市场中,Runway 的独特定位
Runway 于 2023 年 2 月向用户发布了其首个公开可用的视频合成产品。Gen-1 的创作更多是好奇心的产物,而非实用工具,但后续优化使该工具能够在实际项目中有限度地使用。
例如,它被用于制作电影《瞬息全宇宙》中两块带有眼球贴纸的石头在悬崖上对话的场景,也被用于制作《柯尔伯特深夜秀》的视觉效果。
与许多由 AI 研究人员或硅谷企业家创立的竞争对手不同,Runway 由纽约大学蒂施艺术学院的艺术系学生于 2018 年创立——来自智利的 Cristóbal Valenzuela 和 Alejandro Matamala,以及来自希腊的 Anastasis Germanidis。
它是最早向公众发布可用视频生成工具的公司之一,其团队还为 Stable Diffusion 模型做出了基础性贡献。
虽然在支出上远不及 OpenAI 等竞争对手,但当大多数竞争对手都在发布通用视频创作工具时,Runway 则寻求在行业中获得类似 Adobe 的地位。它专注于面向设计师和电影制作者等创意专业人士进行营销,并实现了旨在将 Runway 融入现有创意工作流程的工具。
作为支持工具(而非独立创意产品)的定位帮助 Runway 与电影公司 Lionsgate 达成协议,Lionsgate 允许 Runway 合法使用其电影库训练模型,而 Runway 则为 Lionsgate 提供定制工具用于制作或后期制作。
不过,Runway 与 Midjourney 等公司一起,正面临艺术家们提起的广受关注的知识产权诉讼,这些艺术家声称这些公司非法使用他们的作品训练模型,因此并非所有创意人士都支持这种做法。
除了宣布与 Lionsgate 的合作关系外,Runway 从未公开分享其模型训练所使用的数据。然而,404 Media 的一份报告似乎揭示,至少部分训练数据包括从知名网红、电影制作室等 YouTube 频道抓取的视频。
Gen-4 的未来有待验证
Gen-4 声称的改进针对的是创意工作者们的抱怨,即这些视频合成工具由于场景一致性和理解能力有限而使用受限。OpenAI 的 Sora 等竞争工具也试图改进这些限制,但效果有限。
Runway 宣布 Gen-4 今天向"所有付费计划和企业客户"开放。然而,当我登录我的付费账户时,Gen-4 虽然出现在模型选择器中,但旁边标注着"即将推出",目前还无法选择。Runway 可能正在缓慢地向账户推出该模型,以避免服务器负载问题。
无论何时向所有用户开放,该模型都只对付费计划开放。个人非企业计划起价为每月 15 美元,最高可达每月 95 美元,选择年度计划可享受 20% 的折扣。企业账户年费为 1,500 美元。
这些计划每月为用户提供最多 2,250 个积分,但由于生成可用的 AI 视频需要反复调整,这些积分可能无法生成太多可用视频。95 美元/月的个人计划中有一个"探索模式",允许以较慢的速度无限生成,这是一种逐步找到所需输出的方式。
好文章,需要你的鼓励
OpenAI宣布获得400亿美元融资,估值飙升至3000亿美元,成为史上最大私募投资。这笔资金将用于AI研究、基础设施和产品开发,显示了AI在企业技术领域的重要性日益提升。OpenAI用户数量激增,每小时新增100万,反映出其在激烈竞争中的强劲增长。此轮融资强化了OpenAI在企业AI解决方案市场的地位,企业决策者需密切关注AI技术的快速发展。
OpenAI 宣布计划发布自 2019 年以来首个"开放权重"语言模型,这标志着该公司战略的重大转变。这一决定源于开源 AI 的经济压力,反映了基础模型商品化的趋势。此举可能重塑企业 AI 实施策略,尤其是在受监管行业中。OpenAI 面临在开放性和责任之间取得平衡的挑战,同时也凸显了 AI 行业竞争格局的根本变化。
Microsoft 正在对 Windows 系统崩溃时显示的蓝屏 (BSOD) 进行重新设计。新设计简化了界面,保留了技术信息,旨在提高用户生产力恢复速度。新版 BSOD 移除了表情符号和二维码,但保留了错误代码和失败进程信息。这一变更反映了 Microsoft 对提升用户体验的持续关注。
CarMax 作为美国最大的二手车零售商,年收入超过 265 亿美元。在 Shamim Mohammad 的领导下,公司成功实现了数字化转型,成为汽车行业的领先者。通过建立强大的技术基础、优化数据策略、应用人工智能技术,以及采用产品运营模式,CarMax 正在重塑汽车零售的未来。Mohammad 的前瞻性领导力和对创新的不懈追求,使 CarMax 在数字化时代保持竞争优势。