AI 视频创业公司 Runway 今日宣布推出其最新的视频合成模型。这个名为 Gen-4 的模型声称解决了 AI 视频生成中的几个关键问题。
其中最主要的是实现了跨镜头中角色和物体的一致性。如果你看过任何 AI 制作的短片,可能已经注意到它们要么是梦幻般的画面序列,虽然主题相关但现实感不足——更像是情绪表达而非连贯的叙事。
Runway 表示,只要在其界面中提供角色或物体的单一参考图像,Gen-4 就能保持其一致性。
公司发布的示例视频展示了同一名女性在不同场景中的多个镜头,以及同一座雕像在完全不同的环境中出现,在各种光照条件下保持着基本一致的外观。
同样,Gen-4 旨在让使用该工具的电影制作者能够在同一序列中从多个角度拍摄同一环境或主体。这在 Gen-2 和 Gen-3 中几乎是不可能实现的。该工具此前在保持风格统一性方面表现出色,但无法在同一场景中生成多个角度的画面。
Runway 上一次重大模型更新是在 2024 年 6 月推出的 Gen-3。该更新将用户可制作的视频长度从 2 秒延长到 10 秒,并提供了比其前身 Gen-2 更高的一致性和连贯性。
在竞争激烈的市场中,Runway 的独特定位
Runway 于 2023 年 2 月向用户发布了其首个公开可用的视频合成产品。Gen-1 的创作更多是好奇心的产物,而非实用工具,但后续优化使该工具能够在实际项目中有限度地使用。
例如,它被用于制作电影《瞬息全宇宙》中两块带有眼球贴纸的石头在悬崖上对话的场景,也被用于制作《柯尔伯特深夜秀》的视觉效果。
与许多由 AI 研究人员或硅谷企业家创立的竞争对手不同,Runway 由纽约大学蒂施艺术学院的艺术系学生于 2018 年创立——来自智利的 Cristóbal Valenzuela 和 Alejandro Matamala,以及来自希腊的 Anastasis Germanidis。
它是最早向公众发布可用视频生成工具的公司之一,其团队还为 Stable Diffusion 模型做出了基础性贡献。
虽然在支出上远不及 OpenAI 等竞争对手,但当大多数竞争对手都在发布通用视频创作工具时,Runway 则寻求在行业中获得类似 Adobe 的地位。它专注于面向设计师和电影制作者等创意专业人士进行营销,并实现了旨在将 Runway 融入现有创意工作流程的工具。
作为支持工具(而非独立创意产品)的定位帮助 Runway 与电影公司 Lionsgate 达成协议,Lionsgate 允许 Runway 合法使用其电影库训练模型,而 Runway 则为 Lionsgate 提供定制工具用于制作或后期制作。
不过,Runway 与 Midjourney 等公司一起,正面临艺术家们提起的广受关注的知识产权诉讼,这些艺术家声称这些公司非法使用他们的作品训练模型,因此并非所有创意人士都支持这种做法。
除了宣布与 Lionsgate 的合作关系外,Runway 从未公开分享其模型训练所使用的数据。然而,404 Media 的一份报告似乎揭示,至少部分训练数据包括从知名网红、电影制作室等 YouTube 频道抓取的视频。
Gen-4 的未来有待验证
Gen-4 声称的改进针对的是创意工作者们的抱怨,即这些视频合成工具由于场景一致性和理解能力有限而使用受限。OpenAI 的 Sora 等竞争工具也试图改进这些限制,但效果有限。
Runway 宣布 Gen-4 今天向"所有付费计划和企业客户"开放。然而,当我登录我的付费账户时,Gen-4 虽然出现在模型选择器中,但旁边标注着"即将推出",目前还无法选择。Runway 可能正在缓慢地向账户推出该模型,以避免服务器负载问题。
无论何时向所有用户开放,该模型都只对付费计划开放。个人非企业计划起价为每月 15 美元,最高可达每月 95 美元,选择年度计划可享受 20% 的折扣。企业账户年费为 1,500 美元。
这些计划每月为用户提供最多 2,250 个积分,但由于生成可用的 AI 视频需要反复调整,这些积分可能无法生成太多可用视频。95 美元/月的个人计划中有一个"探索模式",允许以较慢的速度无限生成,这是一种逐步找到所需输出的方式。
好文章,需要你的鼓励
智能网卡(SmartNIC)技术自2013年AWS首次应用以来,虽然获得了VMware、英特尔、AMD和英伟达等巨头支持,但市场表现平平。分析师指出,目前主要客户仍局限于服务提供商。然而,随着AI技术蓬勃发展,情况正在改变。英伟达、红帽等厂商在AI云架构中推荐使用DPU,认为其可优化推理工作负载并提升资源效率,AI革命有望真正推动智能网卡技术普及。
法国Valeo公司联合巴黎索邦大学开发出DIP技术,让AI模型能像人类一样通过少量样本快速学习图像理解。该技术采用创新的"元学习"训练方式,无需人工标注即可显著提升模型在复杂场景下的分割性能,训练时间仅需9小时,在多个数据集上表现优异,为自动驾驶、医疗影像等领域应用提供了新可能。
YouTube为Premium会员推出AI生成的搜索轮播功能,可在购物和地点查询时显示相关视频序列。同时,此前仅限Premium用户的AI对话助手开始向美国普通用户开放,用户可通过"询问"按钮获得视频摘要和内容问答服务。该AI工具基于YouTube平台和网络信息运行,但准确性仍待观察。
微软等机构联合推出的RealPlay系统首次实现了用游戏控制指令生成现实视频的突破。该系统仅使用赛车游戏数据训练,却能控制现实中的汽车、自行车和行人运动,控制成功率达90%。RealPlay支持交互式视频生成,用户可像玩游戏般逐步指导视频发展,生成质量接近真实拍摄,为AI视频生成和未来游戏引擎开发开辟了新方向。