谷歌推出Genie 3世界模型，可实时动态修改模拟环境状态

谷歌DeepMind发布新一代世界模型Genie 3，相比前代产品实现多项关键提升。新模型支持720p分辨率输出，可持续运行数分钟而不产生伪影，并首次支持实时交互和文本提示功能，用户可通过文本指令动态改变模拟世界状态。DeepMind将其定位为AI智能体训练工具，可用于自动驾驶等场景的"假如"情况训练，提高模型可靠性。

12月初，谷歌DeepMind发布了Genie 2。Genie系列AI系统被称为世界模型，能够在用户（人类或自动化AI智能体）在软件模拟的世界中移动时生成相应图像。虽然模型运行时的视频效果看起来像电子游戏，但DeepMind一直将Genie 2定位为训练其他AI系统的工具，帮助它们更好地完成设计任务。本周二，DeepMind宣布推出新的Genie 3模型，该实验室认为这是一个更优秀的AI智能体训练系统。

乍看之下，Genie 2到3的跃升并不如去年的升级那样显著。Genie 2使DeepMind的系统能够生成3D世界，即使在用户或AI智能体离开去探索生成场景的其他部分后，也能准确重构环境的一部分。环境一致性往往是之前世界模型的弱点，例如Decart的Oasis系统在记住其生成的Minecraft关卡布局方面存在困难。

相比之下，Genie 3提供的增强功能看起来更为温和，但在谷歌今日正式发布前举行的媒体简报会上，DeepMind研究总监Shlomi Fruchter和研究科学家Jack Parker-Holder认为，这些改进代表了通向通用人工智能道路上的重要里程碑。

那么Genie 3究竟在哪些方面表现更好？首先，它输出720p分辨率的画面，而不是前代的360p。它还能够维持更长时间的"一致"模拟。Genie 2理论上限制为60秒，但实际上模型往往会更早开始产生幻觉。相比之下，DeepMind表示Genie 3能够运行数分钟才开始产生伪影。

该模型的另一个新功能是DeepMind称之为"可提示的世界事件"。Genie 2具有交互性，用户或AI智能体能够输入移动命令，模型在生成下一帧后会做出响应。Genie 3能够实时完成这项工作。此外，可以通过文本提示来调整模拟，指示Genie改变其生成世界的状态。在DeepMind展示的演示中，模型被告知在一个人滑雪下山的场景中插入一群鹿。虽然鹿的移动方式不够逼真，但DeepMind表示这是Genie 3的杀手级功能。

如前所述，该实验室主要将模型视为训练和评估AI智能体的工具。DeepMind表示，Genie 3可用于教授AI系统处理其预训练未涵盖的"假设"场景。Fruchter说："在模型能够部署到现实世界之前，还有很多工作要做，但我们确实将其视为更高效训练模型并提高其可靠性的方式。"他举例说，Genie 3可用于教导自动驾驶汽车如何安全避开突然出现在前方的行人。

尽管DeepMind对Genie进行了改进，但该实验室承认仍有大量工作要做。例如，该模型无法完美准确地生成现实世界位置，在文本渲染方面也存在困难。此外，为了让Genie真正有用，DeepMind认为模型需要能够维持模拟世界数小时而非数分钟。尽管如此，该实验室认为Genie已准备好产生现实世界的影响。

Parker-Holder说："我们已经到达这样一个阶段：虽然你不会将Genie作为唯一的训练环境，但你确实可以发现一些你不希望智能体做的事情，因为如果它们在某些设置中表现不安全，即使这些设置并不完美，了解这一点仍然是有益的。你已经可以看到这将走向何方，随着模型的改进，它将变得越来越有用。"

目前，Genie 3尚未向公众开放。不过，DeepMind表示正在努力让更多测试人员使用该模型。

Q&A

Q1：Genie 3相比Genie 2有哪些主要改进？

A：Genie 3在三个方面有显著改进：首先是分辨率从360p提升到720p；其次是能够维持数分钟的一致模拟，而Genie 2往往在60秒内就开始产生幻觉；最重要的是新增了"可提示的世界事件"功能，可以通过文本提示实时修改模拟世界的状态。

Q2：Genie 3的主要用途是什么？

A：Genie 3主要用于训练和评估AI智能体，特别是处理预训练未涵盖的"假设"场景。例如，可以用来教导自动驾驶汽车如何安全避开突然出现的行人，帮助AI系统提高可靠性和安全性。

Q3：普通用户现在能使用Genie 3吗？

A：目前Genie 3尚未向公众开放。DeepMind表示正在努力让更多测试人员使用该模型，但还没有具体的公开发布时间表。

来源：engadget

0赞

好文章，需要你的鼓励

谷歌推出Genie 3世界模型，可实时动态修改模拟环境状态

来源：engadget

2025

08/06

09:22

分享

点赞

RGB-Mini LED显示器与智能投影领衔，海信&Vidda六大3C潮品重磅发布

中国移动与火山引擎推出机密模型服务，为企业提供安全可信AI服务

双员值守，智护电网：国网浙江电力以“酷德+洛格”打造信息系统主动式运维体系

FFmpeg维护者JB Kempf：20人团队撑起全球互联网视频骨架，240000行汇编全靠手写，拒绝数千万美元

Antigravity A1无人机重大升级：AI剪辑与语音控制全面上线

北京车展 | 800V与SiC加速“上车”，隔离驱动芯片打响“本土高端突围战”

SkyfireAI获1100万美元融资，推动无人机自主协同作战

Ride1Up发布全球首款搭载半固态电池电动自行车

丰田与Hyroad携手推进南加州氢能重卡规模化部署

苹果探索与英特尔合作制造芯片，英特尔股价单日暴涨13%

9to5Mac每日播客：iOS 26.5 RC版本及苹果芯片合作伙伴最新动态

Threads网页版私信功能正式上线，但有几点需注意

Aquant推出智能体AI平台助力服务团队构建定制化AI智能体

DeepMind发布Genie 3：通往AGI的关键世界模型

超越Meta Quest和Vision Pro的未来：智能眼镜将重新定义VR

IT职业发展新趋势：5个热门方向与5个冷门领域

DeepMind发布Genie 3"世界模型"，实现实时交互式模拟环境

博通发布Jericho4芯片助力多数据中心AI协同运算

Google NotebookLM向更多年轻用户开放

ElevenLabs推出AI音乐生成器，声称可商业使用

谷歌NotebookLM向年轻用户开放，AI教育市场竞争加剧

新加坡国立大学与Google携手建AI研究中心，聚焦教育医疗法律三领域

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: