Runway在过去七年中一直专注为创意产业构建视觉生成工具,如今该公司发现了技术应用的新机遇:机器人行业。
这家总部位于纽约的公司以其视频和图像生成AI世界模型而闻名,这些大语言模型能够创建真实世界的模拟版本。最近,该公司在3月份发布了视频生成模型Gen-4,并在7月推出了视频编辑模型Runway Aleph。
Runway联合创始人兼CTO Anastasis Germanidis在接受TechCrunch采访时表示,随着Runway世界模型的不断改进和逼真度提升,公司开始收到来自机器人和自动驾驶汽车公司的合作询问,这些公司希望使用这项技术。
"我们认为这种模拟世界的能力在娱乐之外具有广泛用途,尽管娱乐仍然是我们一个不断增长的重要领域,"Germanidis说道。"这使得训练与真实世界交互的[机器人]策略变得更加可扩展和成本效益更高,无论是在机器人领域还是自动驾驶领域。"
Germanidis表示,与机器人和自动驾驶汽车公司合作并非Runway在2018年成立时的初衷。直到机器人和其他行业的公司主动联系,该公司才意识到他们的模型具有比最初想象更广泛的应用场景。
机器人公司正在使用Runway的技术进行训练模拟,Germanidis说。他补充道,仅在真实世界场景中训练机器人和自动驾驶汽车对公司来说成本高昂、耗时很长且难以规模化。
虽然Runway知道自己无法完全取代真实世界的训练,但Germanidis表示,公司可以通过在Runway模型上运行模拟获得巨大价值,因为这些模型能够实现极其精确的控制。
与真实世界训练不同,使用这些模型可以更容易地测试特定变量和情况,而无需改变场景中的其他任何因素,他补充说。
"你可以退一步,然后模拟不同行动的效果,"他说。"如果汽车选择这个转弯而不是那个,或者执行这个动作,结果会是什么?从相同的上下文创建这些推演,在物理世界中是一件非常困难的事情,基本上要保持环境的所有其他方面相同,只测试你想要采取的特定行动的效果。"
Runway并非唯一一家致力于解决这一问题的公司。例如,英伟达本月早些时候发布了其Cosmos世界模型的最新版本,以及其他机器人训练基础设施。
Germanidis表示,该公司不打算为机器人和自动驾驶汽车客户发布"完全独立的模型系列"。相反,Runway将对其现有模型进行微调,以更好地服务这些行业。该公司还正在组建一个专门的机器人团队。
Germanidis补充说,虽然这些行业并不在公司最初向投资者的推介中,但投资者支持这一扩张。Runway已从英伟达、谷歌和General Atlantic等投资者那里筹集了超过5亿美元资金,估值达30亿美元。
"我们对公司的理解是建立在一个原则之上,而不是基于市场,"Germanidis说。"这个原则就是模拟的理念,能够构建越来越好的世界表征。一旦你拥有了这些真正强大的模型,你就可以将它们用于各种不同的市场、各种不同的行业。我们预期的行业已经存在,并且由于生成式模型的强大力量,它们将发生更大的变化。"
Q&A
Q1:Runway的世界模型是什么?有什么特点?
A:Runway的世界模型是能够创建真实世界模拟版本的大语言模型,主要用于视频和图像生成。这些模型的特点是逼真度不断提升,能够进行精确的场景模拟,最新产品包括视频生成模型Gen-4和视频编辑模型Runway Aleph。
Q2:机器人公司如何使用Runway的技术?
A:机器人公司主要使用Runway的技术进行训练模拟。相比在真实世界中训练机器人和自动驾驶汽车,使用Runway的模型进行模拟训练更加成本效益高、可扩展,并且能够在保持其他环境因素不变的情况下测试特定变量和行动的效果。
Q3:Runway会为机器人行业开发专门的产品吗?
A:Runway不打算发布完全独立的机器人行业模型系列,而是会对现有模型进行微调以更好地服务机器人和自动驾驶汽车行业。同时,公司正在组建专门的机器人团队来支持这一业务扩张。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。