去年,Google展示了其AI世界模型的升级版本Genie 3,它具备了令人印象深刻的长期记忆能力,能够仅从简单的文本提示就创建交互式世界。当时,Google只向少数受信任的测试者提供了Genie。现在,作为Project Genie,它的可用范围更加广泛,但仅限于订阅Google最昂贵AI服务的用户。
什么是世界模型
世界模型正如其名称所示——这是一种能够即时生成动态环境的AI。不过,它们在技术上并不是3D世界。像Genie 3这样的世界模型会创建一个响应你控制输入的视频,让你能够像探索真正的虚拟世界一样探索这个模拟环境。Genie 3在世界模型领域是一个突破,因为它能够在更长的时间内记住它所创建世界的细节。但在这种情况下,"更长时间"是指几分钟。
Project Genie的功能特性
Project Genie本质上是Genie 3的清理优化版本,它集成了更新的AI模型,如Nano Banana Pro和Gemini 3。Google在Project Genie中提供了许多预构建的世界,但使其真正有趣的是创建新内容的能力。你可以提供参考图像,或者简单地告诉Genie你想要从环境和角色中得到什么。
系统首先生成一张静态图像,然后你可以从中生成世界。这就是Google所说的"世界素描"。如果你不喜欢Nano Banana Pro创建的参考图像,你可以在将其交给Genie之前进行修改。
生成的视频为720p分辨率,渲染速度约为每秒24帧。当你使用WASD按键移动角色时,Genie会以接近实时的方式渲染前方的路径。
如果60秒的AI世界探索还不够,你可以重新运行提示。由于这是生成式AI,每次的结果都会略有不同。Google还允许你使用新角色和视觉风格来"重新混合"其预构建的世界。你探索过程的生成视频也可以下载。
仍处于实验阶段
Google强调Project Genie仍只是一个研究原型,因此存在一些显著的限制。任何使用过Google Veo或OpenAI Sora创建AI视频的人都知道,即使创建一个短片段也需要几秒钟。因此,Genie能够让人感觉到交互性本身就令人印象深刻。然而,会存在一些输入延迟,而且每个世界只能探索60秒。此外,之前为Genie 3演示的可提示事件功能(允许在运行的模拟中插入新元素)尚未可用。
虽然Google一直在宣传Genie准确建模物理现象的能力,但公司指出,测试者可能会看到一些看起来或行为不太正确的世界示例。测试者也可能看到内容限制的变化。The Verge网站能够测试Project Genie,最初它很乐意生成任天堂游戏的仿制版,如超级马里奥和塞尔达传说。但在测试结束时,The Verge报告称,由于"第三方内容提供商的利益",一些这样的提示被屏蔽了。
Project Genie只能通过专用的网络应用程序访问——它不会集成到Gemini应用程序或网站中。目前,你只能通过AI Ultra订阅访问这个工具,每月费用为250美元。生成所有这些AI视频成本昂贵,因此从高级层开始是合理的。Google表示其目标是随着时间的推移开放Project Genie的访问权限。
Q&A
Q1:Project Genie是什么?它能做什么?
A:Project Genie是Google开发的AI世界模型工具,它能从图片或文本提示创建交互式虚拟世界。用户可以使用WASD键控制角色在生成的720p视频世界中探索,系统会实时渲染前方路径,每次探索时长为60秒。
Q2:Project Genie如何收费?普通用户能使用吗?
A:目前Project Genie只对订阅AI Ultra的用户开放,月费为250美元。它只能通过专用网络应用访问,不集成在Gemini应用中。Google表示将逐步开放更多用户的访问权限。
Q3:Project Genie生成的世界质量如何?有什么限制?
A:系统生成720p、24fps的视频世界,但仍是研究原型,存在输入延迟、每次只能探索60秒等限制。可能出现物理行为不正确的情况,且对第三方版权内容有限制,如任天堂游戏相关内容会被屏蔽。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。