近年来,我们已经习惯了看到AI生成的文本、图片、视频甚至计算机代码。但如果它能更进一步,创造出完整的世界呢?
对于致力于开发能够模拟完整3D环境的生成工具类别的开发者来说,这正是他们的目标。
世界模型旨在生成身临其境的3D环境,完整包含居民和运行的物理系统,我们可以探索和操控这些环境,就像真的身处其中一样。
想象一下我们在视频游戏或虚拟现实中移动的那种3D空间,但这些空间不是人类精心制作的,而是完全由机器构建的。
人们认为世界模型将对工程学、建筑学、机器人学和医学等各个领域产生巨大影响,通过创建有助于我们理解真实世界的模拟环境。
让我们深入了解一下这些世界模型到底是什么、谁在构建它们,以及为什么它们是当今AI研究最重要的领域之一。
世界模型如何运作
AI模型目前可以使用两种不同的方法来创建虚拟世界和环境。
第一种是在用户与世界交互时动态建模一切。这类似于生成视频模型的工作方式——通过根据其对物理和对象行为的理解来预测每个像素如何随时间变化。
只是世界模型会响应用户在世界中导航时的输入,通过移动镜头或与其中包含的人和对象交互,而不仅仅是解释提示来决定应该生成什么视频。
使用这种方法,整个世界基于模型对环境和对象应如何行为的内部理解,逐帧连续生成。
这种方法允许创建高度灵活、逼真和独特的环境。例如,想象一个视频游戏世界,字面上可以发生任何事情。可能性不限于游戏程序员编写到代码中的情况和选择,因为模型会生成视觉和声音来匹配玩家做出的任何选择。
一个主要缺点是这种方法需要大量计算资源。这意味着当今最先进的实时世界模型由于高CPU开销,在保持世界一致性方面仅限于几分钟。
这就是为什么其他模型采用不同的方法来解决世界生成问题。它们不是实时逐帧生成世界,而是接受提示并将其转换为持久的几何模型、数字资产和物理元数据。
然后可以下载这些数据并导入其他软件工具中进行操控、编辑和探索。
谁在构建世界模型
一些AI领域的知名公司目前正在开发自己的世界模型。
其中包括谷歌,其Genie 3平台目前处于研究预览阶段,能够创建保持数分钟持续性的世界。
Meta(Facebook)也在开发自己的世界模型,采用与谷歌相同的动态生成技术。其平台Habitat 3旨在创建虚拟环境,让具身AI(物理机器人)可以在部署到现实世界之前,在其中训练导航、操控对象和与人类安全交互。
然而,由AI先驱李飞飞领导的World Labs采用了不同的方法,其Marble世界模型从文本、图像或视频提示创建持久的、可下载的3D环境。
甚至埃隆·马斯克也参与其中,他的xAI开发团队正在开发一个目前未命名的世界模型,据报道将用于视频游戏和训练机器人。
它们将做什么
从商业角度来看,世界模型的应用案例可能与文本、图像和声音生成一样无限。
除了在视频游戏和娱乐领域的明显用途外,潜在应用案例包括医疗保健环境,可以用来创建临床环境的沉浸式数字孪生来模拟患者交互。
这些环境还将用于为工业机器人、自动驾驶汽车和其他将在现实环境中运作的具身AI对象创建虚拟训练场。
它们将让制造商在工厂中测试新的布局、设备放置和工作流程,为安全、能效和减少停机时间建模。
建筑师将使用它们来建模、查看和交互建筑物,在放置第一块砖之前测试它们如何对物理、照明、气流和人员移动做出反应。
由于它们将在微观和宏观尺度上建模,它们可以用来模拟人体环境和决定新药物和治疗方法功效的分子反应。
为什么这如此重要
我相信世界模型有潜力成为当前正在进行的由生成式AI驱动的商业和社会更广泛转型不可或缺的一部分。
我不是唯一这样想的人——实际上,谷歌DeepMind的杰克·帕克-霍尔德和什洛米·弗鲁赫特表示,他们相信这将是通往通用人工智能道路上的关键踏脚石。
通用人工智能,即AI发展的当前"圣杯",通常被概括为指能够将其知识和能力应用于任何任务的机器,无论它们是否接受过专门训练来做这件事,就像人类一样。
为了导航和理解世界,AI需要知道世界是如何构建的、由什么组成的,以及如何保持在一起。
世界模型承诺以增强其语言和视觉能力的方式赋予它这种能力。
这就是为什么我相信它们是当前AI发展中最令人兴奋和至关重要的领域之一,任何想要了解AI将如何影响和塑造未来的人都应该饶有兴趣地关注这个领域。
Q&A
Q1:世界模型是什么?它能做什么?
A:世界模型是一种AI工具,旨在生成身临其境的3D环境,完整包含居民和运行的物理系统。用户可以探索和操控这些环境,就像真的身处其中一样。它们能创建类似视频游戏或虚拟现实中的3D空间,但完全由机器构建而非人类制作。
Q2:目前有哪些公司在开发世界模型?
A:主要包括谷歌的Genie 3平台、Meta的Habitat 3平台、由李飞飞领导的World Labs的Marble世界模型,以及埃隆·马斯克的xAI开发团队。这些公司采用不同的技术方法,有的专注于动态生成,有的创建持久可下载的3D环境。
Q3:世界模型在实际应用中有什么用途?
A:应用领域广泛,包括医疗保健中创建临床环境的数字孪生、为工业机器人和自动驾驶汽车创建虚拟训练场、帮助制造商测试工厂布局和工作流程、让建筑师在建造前测试建筑物的物理反应,以及模拟人体环境和分子反应来测试新药物功效。
好文章,需要你的鼓励
无人机食品配送服务商Flytrex与全球知名披萨连锁品牌Little Caesars宣布合作,推出全新Sky2无人机,最大载重达4公斤,可一次配送两个大披萨及饮料,满足全家用餐需求。Sky2支持最远6.4公里的配送范围,平均从起飞到送达仅需4.5分钟。首个试点门店已在德克萨斯州怀利市上线,并实现与Little Caesars订单系统的直接集成。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
法国社会住房项目ViliaSprint?已正式完工,成为欧洲最大的3D打印多户住宅建筑,共12套公寓,建筑面积800平方米。项目由PERI 3D Construction使用COBOD BOD2打印机完成,整体工期较传统建造缩短3个月,实际打印仅用34天(原计划50天),现场操作人员从6人减至3人,建筑废料率从10%降至5%。建筑采用可打印混凝土,集成光伏板及热泵系统,能源自给率约达60%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。