2025年,随着大语言模型技术的爆发式发展,我们总在寻找下一个突破性技术。这种追逐可能令人疲惫,因此我们常常求助于他人的意见,在Reddit上寻找真实用户对某个模型的评价,或了解人们在博客圈之外的真实想法。
但有时,某些技术就是会脱颖而出,令人印象深刻。
Runway推出的"Whisper Thunder"模型,也就是4.5版本,是一个生成式AI巨擘,能够制作出极其强大的视频内容。早期演示显示,人物和动物在街道上奔跑、相互变形,体验着你在大银幕上才能看到的那种震撼效果——如果你还是那种在流媒体时代依然去电影院看电影的人。
那么,什么是Whisper Thunder?Runway又是什么公司?
黑马公司
遗憾的是,我们没有太多Reddit用户评论,甚至在YouTube上也找不到人们试用这项技术的实例,至少没有人愿意为自己的内容打上相关标签。
关于Runway的信息也很稀少——这不是OpenAI、谷歌或Anthropic。我挖掘到的信息显示,其投资者名单包括:General Atlantic、Baillie Gifford、英伟达和Salesforce Ventures。显然,黄仁勋知道这些人是谁。
在CNBC的采访中,Runway首席执行官Cristóbal Valenzuela透露了更多信息。他说这个新的图像生成模型是"一夜成功,但实际用了七年时间",并认可了AI行业的竞争激烈程度,这对很多人来说都很重要。
Valenzuela表示:"Runway很兴奋能够确保AI不会被两三家公司垄断。"
这次报道还透露了一个额外消息:4.5版本或Whisper Thunder在开发过程中的代号是"David",这个名字体现了公司作为行业黑马的地位。
Runway的精彩表现
我最喜欢的播客主持人之一Nathaniel Whittemore对Runway的新模型给出了这样的评价,虽然我相信他是在引用别人的话:
"Runway Gen 4.5处于技术前沿,为视频生成、动作质量、提示词遵循和视觉保真度设定了新标准。它在文本转视频排行榜上确实表现出色……看起来很多进步都符合我所说的'解锁分数',基本上就是那些能够解锁之前困难甚至不可能实现的用例的改进。"
作为参考,这里有一份来自Y Combinator Hacker News的功能快速列表:
"o 文本转视频:输入提示词,选择风格/比例,就能生成完整视频。
o 电影级质量:自然动作、一致场景、逼真光影——比大多数类似工具更稳定。
o 快速简便:无水印,无需付费,生成速度快——非常适合视频原型制作。
o 风格控制:支持真实、动画和电影风格,并能使用参考图像在镜头间保持一致性。"
这个模型值得关注,同时还有本周早些时候我写过的Nano Banana Pro,它也出现在了每个人的信息流中。这给OpenAI带来了严重压力,需要在模型领域保持领先于谷歌的快速发展。
敬请关注更多动态。
Q&A
Q1:Runway 4.5的Whisper Thunder模型有什么特点?
A:Whisper Thunder是Runway推出的4.5版本生成式AI模型,能够制作极其强大的视频内容。它具有电影级质量,支持自然动作、一致场景和逼真光影效果,比大多数类似工具更稳定,并且支持文本转视频、多种风格控制等功能。
Q2:Runway公司的背景如何?
A:Runway不是OpenAI、谷歌或Anthropic这样的知名公司,算是行业黑马。其投资者包括General Atlantic、Baillie Gifford、英伟达和Salesforce Ventures。CEO Cristóbal Valenzuela表示,公司致力于确保AI不被少数几家公司垄断。
Q3:为什么说Runway 4.5在技术上有突破?
A:根据评价,Runway Gen 4.5处于技术前沿,为视频生成、动作质量、提示词遵循和视觉保真度设定了新标准。它在文本转视频排行榜上表现出色,能够解锁之前困难甚至不可能实现的用例,代表了重要的技术进步。
好文章,需要你的鼓励
真相只有一个:在AI与创意的交汇点上,HP Z2 Mini G1a确实是一台值得推荐的灵感引擎。
德国图宾根大学研究团队开发了MatSpray技术,能将2D照片中的材质信息准确转换为3D模型的物理属性。该技术结合了2D扩散模型的材质识别能力和3D高斯重建技术,通过创新的神经融合器解决多视角预测不一致问题,实现了高质量的材质重建和真实的重光照效果,处理速度比现有方法提升3.5倍。
近年来,AI学会了写作、生成图像、创建视频甚至编写代码。随着这些能力成为主流,研究重点转向更深层问题:机器能否真正理解世界运作方式?世界模型应运而生,从1950年代概念到2024年OpenAI的Sora、2025年英伟达Cosmos等突破性应用。与语言模型基于文本预测不同,世界模型专注预测环境变化,通过学习因果关系实现推理规划。在机器人、自动驾驶等物理AI领域前景广阔,但面临计算资源需求高、数据收集困难等挑战。
纽约大学研究团队开发出革命性"大脑翻译器"技术,首次实现用人类大脑活动模式精确控制AI语言行为。通过MEG脑磁图技术构建大脑语言地图,提取20个关键坐标轴,训练轻量级适配器让AI按人脑思维方式工作。实验证明该方法不仅能精确引导AI生成特定类型文本,还显著提升语言自然度,在多个AI模型中表现出良好通用性,为人机交互和AI可控性研究开辟全新路径。