DeepMind发布Genie 3：通往AGI的关键世界模型

谷歌DeepMind发布了Genie 3基础世界模型，该实验室称其为通向通用人工智能的重要里程碑。Genie 3是首个实时交互的通用世界模型，能够生成照片级逼真和想象世界。该模型可通过文本提示生成数分钟的多样化3D环境，分辨率达720p，帧率24fps。最重要的是，Genie 3的模拟在时间上保持物理一致性，因为模型能够记住先前生成的内容。研究人员认为世界模型是实现AGI的关键，特别是对于具身智能体的训练。

Google DeepMind近日发布了Genie 3，这是其最新的基础世界模型，该AI实验室表示这是通往人工通用智能（AGI）道路上的重要里程碑。

"Genie 3是首个实时交互的通用世界模型，"DeepMind研究总监Shlomi Fruchter在新闻发布会上表示。"它超越了以往狭窄的世界模型，不局限于任何特定环境。它既能生成逼真的世界，也能创造想象中的世界，以及介于两者之间的一切。"

目前仍处于研究预览阶段且尚未公开发布的Genie 3，基于其前身Genie 2（可为智能体生成新环境）和DeepMind最新的视频生成模型Veo 3（具有深度物理理解能力）构建而成。

通过简单的文本提示，Genie 3可以生成长达数分钟（相比Genie 2的10-20秒大幅提升）的多样化、可交互3D环境，帧率达24fps，分辨率为720p。该模型还具备"可提示的世界事件"功能，即能够通过提示改变生成的世界。

最重要的是，Genie 3的模拟在时间上保持物理一致性，因为该模型能够记住此前生成的内容——这是DeepMind研究人员未明确编程的涌现能力。

Fruchter表示，虽然Genie 3明显对教育体验和游戏等生成媒体或创意概念原型制作有重要意义，但其真正的价值在于训练执行通用任务的智能体，这对实现AGI至关重要。

"我们认为世界模型是通往AGI的关键，特别是对于具身智能体，模拟现实世界场景尤其具有挑战性，"DeepMind开放性团队研究科学家Jack Parker-Holder在发布会上说道。

Genie 3旨在解决这一瓶颈。与Veo类似，它不依赖硬编码的物理引擎，而是通过记忆已生成内容并在长时间范围内推理，自学世界如何运作——物体如何移动、下落和相互作用。

"该模型采用自回归方式，即逐帧生成，"Fruchter在单独采访中告诉TechCrunch。"它必须回顾之前生成的内容来决定接下来会发生什么。这是架构的关键部分。"

这种记忆能力为模拟世界创造了一致性，而一致性使其能够形成对物理的直觉理解，类似于人类理解桌边摇摇欲坠的玻璃杯即将掉落，或应该低头躲避坠落物体。

这种长时间模拟连贯、物理合理环境的能力使Genie 3远超生成模型的范畴，成为通用智能体的理想训练场。它不仅能生成无数多样的探索世界，还有潜力将智能体推向极限——迫使它们适应、挣扎并从自身经验中学习，这种方式反映了人类在现实世界中的学习过程。

目前，智能体可执行的动作范围仍然有限。例如，可提示的世界事件允许广泛的环境干预，但这些干预不一定由智能体本身执行。同样，准确建模共享环境中多个独立智能体间的复杂交互仍然困难。Genie 3也只能支持几分钟的持续交互，而适当的训练需要数小时。

尽管如此，Genie 3在教授智能体超越输入反应、进行规划、探索、寻求不确定性并通过试错改进方面迈出了令人信服的一步——这种自驱动的具身学习是迈向通用智能的关键。

"我们还没有真正迎来具身智能体的Move 37时刻，让它们能在现实世界中采取新颖行动，"Parker-Holder说道，他指的是2016年DeepMind的AI智能体AlphaGo与世界冠军李世石围棋对弈中的传奇时刻，AlphaGo下出了非常规且精彩的一步，成为AI发现超越人类理解的新策略能力的象征。

"但现在，我们可能开启一个新时代，"他说。

Q&A

Q1：Genie 3相比前代产品有什么重大突破？

A：Genie 3是首个实时交互的通用世界模型，相比Genie 2的10-20秒，它能生成长达数分钟的3D环境，帧率达24fps，分辨率720p。最重要的是，它具备记忆能力，能保持物理一致性，并拥有"可提示的世界事件"功能，可通过提示改变生成的世界。

Q2：为什么说Genie 3是通往AGI的关键技术？

A：Genie 3能为通用智能体提供理想的训练环境。它不依赖硬编码物理引擎，而是自学世界运作规律，能生成无数多样的探索世界，推动智能体进行自驱动学习——通过规划、探索和试错来改进，这种具身学习是实现通用智能的关键。

Q3：Genie 3目前还有哪些技术限制？

A：目前Genie 3的智能体可执行动作范围有限，难以准确建模多个独立智能体间的复杂交互，且只能支持几分钟的持续交互，而适当训练需要数小时。该技术仍处于研究预览阶段，尚未公开发布。

来源：Techcrunch

0赞

好文章，需要你的鼓励

DeepMind发布Genie 3：通往AGI的关键世界模型

来源：Techcrunch

2025

08/06

09:19

分享

点赞

迪士尼与AI动画的新现实：瞬间生成30万个动画姿态

AI偏见问题已被证实存在但模型"承认"无法证明什么

数字化时代职场转型指南：三大核心能力助力职业发展

Sora负载过重限制用户生成：OpenAI面临GPU熔毁警告

Snap用户将破10亿，Meta推新XR应用，多项AI技术迎来突破

KDE Plasma设定日期彻底弃用X11，Wayland推进加速

PostHog承认Shai-Hulud 2.0是其历史上最严重的安全事件

预测通用人工智能实现的AI确定性窗口

亚太地区5G用户数预计2030年达46亿

13家资本扎堆押注！他山科技一季度连获两轮融资，AI触觉感知技术领跑具身智能

人工智能是否存在泡沫风险的深度分析

AI系统在压力下学会战略性欺骗的深层原因

超越Meta Quest和Vision Pro的未来：智能眼镜将重新定义VR

IT职业发展新趋势：5个热门方向与5个冷门领域

DeepMind发布Genie 3"世界模型"，实现实时交互式模拟环境

博通发布Jericho4芯片助力多数据中心AI协同运算

Google NotebookLM向更多年轻用户开放

ElevenLabs推出AI音乐生成器，声称可商业使用

谷歌NotebookLM向年轻用户开放，AI教育市场竞争加剧

新加坡国立大学与Google携手建AI研究中心，聚焦教育医疗法律三领域

SAP收购AI驱动的招聘平台SmartRecruiters

"Vibe Coding"正在创造全新AI经济生态

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: