DeepMind发布Genie 3"世界模型"，实现实时交互式模拟环境

谷歌DeepMind推出Genie 3"世界模型"，仅需提示词或图像即可创建交互式世界。该模型支持720p分辨率24帧每秒的实时渲染，相比前代产品显著提升了视觉保真度和记忆能力，可保持数分钟的视觉一致性。用户能够实时修改环境、添加对象、改变天气或插入新角色。DeepMind将其视为AI研究工具，用于训练embodied agents并生成合成训练数据。尽管仍存在局限性如无法模拟真实地点、易产生AI幻觉等，但该技术为游戏开发和AGI研究提供了新可能性。

尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法，但这并没有阻止Google DeepMind继续推进AI技术的可能性边界。这些模型的能力（和成本）一直呈现令人印象深刻的上升趋势，Genie 3的发布便是这一趋势的典型例证。距离展示Genie 2"基础世界模型"仅仅七个月后，Google现在推出了Genie 3。

使用Genie 3，只需一个提示词或图像就能创建一个交互式世界。由于环境是持续生成的，因此可以实时进行修改。你可以添加或更改对象、改变天气条件，或插入新角色——DeepMind将这些称为"可提示事件"。创建可变3D环境的能力可以让游戏对玩家来说更加动态，并为开发者提供验证概念和关卡设计的新方法。然而，游戏行业的许多人对此类工具是否真的有帮助表示怀疑。

很容易将Genie 3简单地视为创建游戏的工具，但DeepMind也将其视为研究工具。游戏在人工智能发展中发挥着重要作用，因为它们提供了具有挑战性的交互环境和可衡量的进展。这就是为什么DeepMind之前转向围棋和星际争霸等游戏来扩展AI的界限。

世界模型将此提升到了新的层次，逐帧生成交互式世界。这为改进AI模型（包括所谓的"具身智能体"）在遇到现实世界情况时的行为提供了机会。随着公司朝着通用人工智能（AGI）目标努力，主要限制之一是可靠训练数据的稀缺性。在将地球上基本所有的网页和视频都输入AI模型之后，研究人员正在转向合成数据应用。DeepMind认为世界模型可能是这一努力的关键部分，因为它们可以用于训练AI智能体，提供本质上无限的交互式世界。

DeepMind表示，Genie 3是一个重要进步，因为它比Genie 2提供了更高的视觉保真度，并且是真正的实时处理。使用键盘输入，可以以每秒24帧的720p分辨率浏览模拟世界。或许更重要的是，Genie 3能够记住它创建的世界。

Genie 2最明显的限制之一是其有限的记忆能力，在大多数模拟中最多只能保持约10秒。类似于超出上下文窗口的聊天机器人，该模型会在世界的某些部分短暂离开视野后忘记它们的样子。Google在发布该模型时称Genie 2微薄的保留能力为"长视野记忆"。事情变化得如此之快。Genie 3的视野要长得多，通过多分钟的视觉一致性推动了世界模型的界限。

然而，Genie 3还不是完美的世界构建者。能够保留多分钟细节的能力可以解锁更多用途，但团队承认，理想情况下你希望模型至少保持数小时的一致性。该模型也无法模拟现实世界的位置——它生成的一切都是独特且非确定性的。这意味着它也容易出现典型的AI幻觉。团队表示Genie 3在准确性方面取得了巨大进步，但确实仍会产生不正确的视频元素。例如，人类运动的细微差别有时会在生成过程中丢失，产生看起来向后走的人。这些AI世界中的文本也是杂乱无章的，除非提示词包含模型要包含的特定字符串。

AI智能体集成到世界模型中的方式也有限。虽然你可以创建具有现实条件的世界和可提示事件，但智能体在其中没有作用。它们与模拟世界的交互仅限于在其中移动，因为当前的智能体缺乏改变模拟所需的高级推理能力。DeepMind还在实验允许多个AI智能体在共享环境中相互交互的方法。也许我们会在几个月后的Genie 4中看到这一点？

即使那些愿意每月为高级AI订阅支付数百美元的人也了解到，最大和最昂贵的模型在使用上是有限制的。Genie 3本质上是如此快速地渲染一个很长的视频，以至于它看起来是交互式的，这肯定会使用大量的处理能力。Google DeepMind没有提供具体信息，但你无法使用它这一事实说明了一切。

Genie 3仍然是一个研究工具，但DeepMind显然想展示其能力。团队计划向一组专家和研究人员授予访问权限，他们将帮助完善模型。不过，他们表示计划是向更多人开放Genie世界模型的访问权限。

Q&A

Q1：Genie 3相比前代产品有什么重要改进？

A：Genie 3相比Genie 2有两个重要提升：首先是视觉保真度大幅提高，能以720p分辨率、每秒24帧实现真正实时处理；其次是记忆能力显著增强，从Genie 2的10秒记忆扩展到多分钟的视觉一致性，解决了之前模型容易"遗忘"场景细节的问题。

Q2：Genie 3世界模型能用来做什么？

A：Genie 3可以通过提示词或图像创建交互式世界，支持实时修改环境，如添加物体、改变天气或插入新角色。除了游戏开发应用外，DeepMind主要将其作为AI研究工具，用于训练具身智能体，提供无限的交互式环境来克服训练数据稀缺问题，推进通用人工智能发展。

Q3：Genie 3目前还存在哪些限制？

A：Genie 3仍有几个限制：记忆时长虽然提升到多分钟，但理想状态需要数小时一致性；无法模拟真实世界位置，生成内容具有非确定性；容易出现AI幻觉，如人物倒退行走、文本显示混乱；AI智能体交互能力有限，只能在环境中移动而无法修改模拟；目前仅作研究工具，普通用户无法使用。

来源：Arstechnica

0赞

好文章，需要你的鼓励

DeepMind发布Genie 3"世界模型"，实现实时交互式模拟环境

来源：Arstechnica

2025

08/06

08:35

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

博通发布Jericho4芯片助力多数据中心AI协同运算

Google NotebookLM向更多年轻用户开放

ElevenLabs推出AI音乐生成器，声称可商业使用

谷歌NotebookLM向年轻用户开放，AI教育市场竞争加剧

新加坡国立大学与Google携手建AI研究中心，聚焦教育医疗法律三领域

SAP收购AI驱动的招聘平台SmartRecruiters

"Vibe Coding"正在创造全新AI经济生态

Fundamental Research Labs获3300万美元A轮融资，专注跨领域AI智能体开发

ChatGPT周活跃用户激增至7亿，GPT-5即将发布

ChatGPT将开始提醒用户休息，但可能还不足以改变不良使用习惯

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会