去年夏天,Google DeepMind发布了Genie 3。这是一个被称为世界模型的AI系统,能够生成图像并在用户在软件模拟的环境中移动时做出反应。当时,DeepMind将Genie 3定位为训练智能体的工具。现在,Google正通过Project Genie项目让Google以外的用户也能体验这个模型。
使用条件和限制
要体验Project Genie,用户需要订阅Google每月250美元的AI Ultra计划。此外,用户还必须居住在美国且年满18岁。
三种交互模式
Project Genie在发布时提供三种不同的交互模式:世界素描、探索和重新混合。第一种模式使用Google的Nano Banana Pro模型生成源图像,Genie 3将基于此创建用户后续探索的世界。在这个阶段,用户可以描述角色,定义摄像机视角——无论是第一人称、第三人称还是等距视角——以及想要如何探索Genie 3即将生成的世界。在用户进入模型创建的内容之前,Nano Banana Pro会"素描"用户即将看到的内容,以便进行调整。用户也可以为其他人使用Genie生成的世界编写自己的提示词。
技术特点与局限性
需要注意的是,Genie 3并不是游戏引擎。虽然其输出内容看起来像游戏,并且可以模拟物理交互,但这里没有传统的游戏机制。生成内容也限制在60秒内,演示效果限制为每秒24帧和720p分辨率。尽管如此,对于AI Ultra订阅用户来说,这是一个了解DeepMind在过去几年中前沿研究成果的绝佳机会。
Q&A
Q1:Genie 3是什么?它有什么功能?
A:Genie 3是Google DeepMind开发的世界模型AI系统,能够生成图像并在用户在模拟环境中移动时做出反应。它最初被定位为训练智能体的工具,现在通过Project Genie项目向外部用户开放体验。
Q2:使用Project Genie需要什么条件?
A:用户需要订阅Google每月250美元的AI Ultra计划,同时必须居住在美国且年满18岁。满足这些条件后,就可以体验Project Genie的三种交互模式:世界素描、探索和重新混合。
Q3:Genie 3生成的内容有什么限制?
A:Genie 3不是传统的游戏引擎,虽然输出内容看起来像游戏并可以模拟物理交互,但没有传统游戏机制。生成内容限制在60秒内,演示效果为每秒24帧和720p分辨率。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。