谷歌将街景数据接入Genie世界模型,可模拟真实街道场景

谷歌DeepMind宣布将Street View街景数据接入Genie世界模型,用户可基于真实地点生成可交互的沉浸式环境,并支持调整天气、季节等参数。该功能已于谷歌I/O开发者大会正式发布,面向美国Ultra订阅用户开放,后续将扩展至全球用户。目前Genie已助力Waymo自动驾驶模拟器训练极端场景,但模型尚不具备物理感知能力,画面质量仍处于游戏级别,研究团队预计6至12个月内将显著提升。

我们都曾在谷歌地图上打开街景功能,向朋友展示儿时故居的样子,或者把那个小人图标拖到巴黎街头,看看自己预订的酒店周边是否有趣。现在,谷歌正在将这种体验推向一个全新的维度——更沉浸、更具交互性的街道模拟,甚至可以调整天气状况,或者预览极端气候灾难下的街景。

这正是谷歌最新整合项目的目标之一。即日起,谷歌DeepMind宣布将街景数据接入Project Genie——这是谷歌旗下一款通用世界模型,能够生成多样化的交互式环境。该功能已在谷歌I/O开发者大会上正式亮相。

DeepMind开放性研究团队研究科学家杰克·帕克-霍尔德在接受TechCrunch采访时表示:"无论是对于智能体和机器人的应用场景,还是供人类自行探索,这项技术都非常强大,这也一直是Genie项目的核心理念。"

他举了一个例子:假设一台新机器人被部署在伦敦——那里鲜少有阳光。Genie可以模拟阳光偶尔折射在维多利亚式建筑上的罕见场景,让机器人在真实遭遇时不至于"措手不及"。

他进一步描述了面向普通用户的应用场景:"你可能会说,'我要去纽约,但不是现在这个季节,到时候会下雪,我想提前看看那条街在雪中是什么样的。'"

谷歌通过配备摄像头的街景车以及背负"追踪背包"的拍摄人员,已持续收集街景数据长达20年,累计采集逾2800亿张图像,覆盖全球110个国家和七大洲。

帕克-霍尔德表示:"街景为我们提供了世界上大量地点的图像数据。将这些丰富的真实世界信息与模拟世界的能力相结合,其潜力不可估量。"

谷歌于去年8月发布了最新世界模型Genie 3的研究预览版,并于今年1月向美国的谷歌AI Ultra订阅用户开放了访问权限,允许用户通过文字提示或图像创建可交互的游戏世界。该项目的长期目标是将Genie应用于教育体验、游戏开发以及机器人训练领域。

Genie 3目前已在为Waymo旗下的一款模拟器提供支持,帮助其自动驾驶汽车在"龙卷风"或"偶遇大象"等极端罕见场景下进行训练。而接入街景数据后,这一能力有望协助Waymo更快地拓展至全球更多城市。

Waymo拥有自己的模拟器,依靠它将业务扩展至美国11座城市,并在更多城市测试其AI驾驶系统。帕克-霍尔德指出,两者的区别在于:Waymo的模拟视角始终锁定在车辆视角,而街景则不仅能够基于真实地点构建模拟世界,还能将视角切换至其他类型的智能体,例如行人或机器人。

谷歌今日起已向部分美国Ultra用户开放街景与Genie的集成功能,并将在未来逐步扩大访问规模。据悉,全球Ultra用户将在未来几周内陆续获得访问权限。

DeepMind产品经理迭戈·里瓦斯表示,研究团队的目标是让尽可能多的用户能够使用这项新功能。他同时提醒,街景集成乃至Genie整体仍处于实验阶段,在准确性方面还有很大的提升空间。

在谷歌团队展示的演示样本中——包括对笔者曾经居住的街区进行的水下模拟——结果令人印象深刻,场景还原度较高,但整体效果仍更接近电子游戏画质,尚未达到照片级真实感。此外,这些模型目前也不具备物理感知能力,即尚未理解因果关系。例如,在一段模拟一名女性在约书亚树国家公园雪中奔跑的场景中,她直接穿过了仙人掌和灌木丛。

相比之下,谷歌图像生成器Nano Banana已能在信息图表中生成完美文字,视频生成器Veo则能理解纸船随水流漂动、烟雾散入空气以及布料覆盖物体等物理规律。

物理规律并非被硬性编码进这些模型;它们是通过长期被动观察逐渐习得的,就如同生命体学习认知世界一样。

帕克-霍尔德表示:"就这类模型而言,我认为它在准确性和质量方面大概落后于视频生成模型六到十二个月,但我认为这是我们终将攻克的问题。"

谷歌地图总监乔纳森·赫伯特曾在12年前以实习生身份加入街景团队。他表示,Genie目前还无法对一条街道进行完全精准的重建,但他认为真正的技术突破在于AI的空间连续性。当用户环顾360度后,AI能够正确记忆并模拟身后的环境,并在此基础上继续构建新的场景。

"我们长期以来一直在思考,如何在街景数据的基础上构建出对世界最丰富、最精准的模型,"赫伯特说,"将地图数据以全新方式应用于新型AI研究,一直是我们长久以来的设想。"

Q&A

Q1:谷歌Genie世界模型是什么,有哪些功能?

A:Genie是谷歌DeepMind开发的通用世界模型,能够生成多样化的交互式环境。用户可以通过文字提示或图片创建可交互的游戏世界。目前,Genie 3已向美国谷歌AI Ultra订阅用户开放,应用方向涵盖教育体验、游戏开发和机器人训练,并已接入街景数据,支持模拟真实街道场景及天气变化等效果。

Q2:街景数据接入Genie后,对Waymo自动驾驶训练有什么帮助?

A:Genie 3目前已在为Waymo的模拟器提供支持,帮助自动驾驶汽车应对龙卷风、偶遇大象等极端罕见场景的训练。与Waymo原有模拟器相比,接入街景后不仅能基于真实地点构建模拟世界,还能将视角从车辆切换至行人或机器人等不同智能体视角,有助于Waymo加速拓展全球更多城市的运营布局。

Q3:Genie的街景模拟目前有哪些局限性?

A:目前Genie的街景模拟整体效果接近电子游戏画质,尚未达到照片级真实感。模型也不具备物理感知能力,无法理解因果关系,例如人物可能直接穿过仙人掌等障碍物。此外,街道的完整精准重建也尚未实现。研究人员估计,该模型在质量和准确性上大约落后于视频生成模型六至十二个月。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2026

05/21

14:23

分享

点赞

邮件订阅