随着AI图像和视频生成公司Runway加入越来越多的初创公司和大型科技公司行列,推出其首个世界模型,世界模型发布竞赛正式拉开帷幕。该公司表示,这个名为GWM-1的模型通过逐帧预测工作,创建具有物理理解能力的仿真,并且了解世界如何随时间实际运行。
世界模型是一种AI系统,它学习世界运行方式的内部仿真,因此可以进行推理、规划和行动,而无需针对现实生活中每种可能的场景进行训练。
本月早些时候,Runway推出了Gen 4.5视频模型,在Video Arena排行榜上超越了谷歌和OpenAI。该公司表示,其GWM-1世界模型比谷歌的Genie-3和其他竞争对手更"通用"。该公司将其定位为一个可以创建仿真来训练不同领域智能体的模型,如机器人技术和生命科学。
该公司首席技术官Anastasis Germanidis在直播中说:"要构建世界模型,我们首先需要构建一个真正出色的视频模型。我们相信构建世界模型的正确路径是教会模型直接预测像素,这是实现通用仿真的最佳方式。在足够的规模和正确的数据下,你可以构建一个对世界运行方式有充分理解的模型。"
Runway发布了新世界模型的特定版本,称为GWM-Worlds、GWM-Robotics和GWM-Avatars。
GWM-Worlds是该模型的一个应用程序,让用户创建交互式项目。用户可以通过提示或图像参考设置场景,当您探索空间时,模型会生成具有几何、物理和光照理解的世界。该公司提到仿真以24fps和720p分辨率运行。Runway表示,虽然Worlds对游戏很有用,但它也非常适合教授智能体如何在物理世界中导航和行为。
通过GWM-Robotics,该公司旨在使用合成数据,并添加新参数如变化的天气条件或障碍物。Runway表示,这种方法还可以揭示机器人在不同场景下何时以及如何违反政策和指令。
Runway还在GWM-Avatars下构建逼真的虚拟形象来模拟人类行为。D-ID、Synthesia、Soul Machines甚至谷歌等公司都致力于创建看起来真实的人类虚拟形象,并在通信和培训等领域工作。
该公司指出,从技术上讲,Worlds、Robotics和Avatars是独立的模型,但最终计划将所有这些合并为一个模型。
除了发布新的世界模型外,该公司还在更新本月早些时候发布的基础Gen 4.5模型。新更新为模型带来了原生音频和长篇多镜头生成功能。该公司表示,使用这个模型,用户可以生成一分钟的视频,具有角色一致性、原生对话、背景音频和各种角度的复杂镜头。该公司说,您还可以编辑现有音频和添加对话。此外,您可以编辑任意长度的多镜头视频。
Gen 4.5更新使Runway更接近竞争对手Kling的一体化视频套件,后者也在本月早些时候推出,特别是在原生音频和多镜头叙事方面。这也表明视频生成模型正在从原型转向生产就绪工具。Runway更新的Gen 4.5模型对所有付费计划用户可用。
该公司表示将通过SDK提供GWM-Robotics。它补充说,正在与多家机器人公司和企业就GWM-Robotics和GWM-Avatars的使用进行积极对话。
Q&A
Q1:GWM-1世界模型是什么?它有什么特殊功能?
A:GWM-1是Runway发布的首个世界模型,通过逐帧预测工作,能够创建具有物理理解能力的仿真,了解世界如何随时间实际运行。它比谷歌的Genie-3等竞争对手更"通用",可以创建仿真来训练机器人技术和生命科学等不同领域的智能体。
Q2:GWM-Worlds应用程序能做什么?
A:GWM-Worlds让用户创建交互式项目,可以通过提示或图像参考设置场景。当用户探索空间时,模型会生成具有几何、物理和光照理解的世界,仿真以24fps和720p分辨率运行,适合游戏开发和教授智能体在物理世界中的导航行为。
Q3:Runway Gen 4.5模型更新增加了哪些新功能?
A:更新后的Gen 4.5模型增加了原生音频和长篇多镜头生成功能,用户可以生成一分钟的视频,具有角色一致性、原生对话、背景音频和各种角度的复杂镜头。还可以编辑现有音频、添加对话,以及编辑任意长度的多镜头视频。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。