AI发展的下一个巨大飞跃：世界模型

世界模型是一类能够生成沉浸式3D环境的生成式AI工具，可创建完整的虚拟世界，包含居民和物理系统。谷歌、Meta、World Labs等科技巨头正在开发此类技术。世界模型有两种实现方式：实时动态生成和静态几何建模。其应用前景广阔，涵盖游戏娱乐、医疗健康、工业制造、建筑设计等领域，被认为是实现通用人工智能的重要步骤。

近年来，我们已经习惯了看到AI生成的文本、图片、视频甚至计算机代码。但如果它能更进一步，创造出完整的世界呢？

对于致力于开发能够模拟完整3D环境的生成工具类别的开发者来说，这正是他们的目标。

世界模型旨在生成身临其境的3D环境，完整包含居民和运行的物理系统，我们可以探索和操控这些环境，就像真的身处其中一样。

想象一下我们在视频游戏或虚拟现实中移动的那种3D空间，但这些空间不是人类精心制作的，而是完全由机器构建的。

人们认为世界模型将对工程学、建筑学、机器人学和医学等各个领域产生巨大影响，通过创建有助于我们理解真实世界的模拟环境。

让我们深入了解一下这些世界模型到底是什么、谁在构建它们，以及为什么它们是当今AI研究最重要的领域之一。

世界模型如何运作

AI模型目前可以使用两种不同的方法来创建虚拟世界和环境。

第一种是在用户与世界交互时动态建模一切。这类似于生成视频模型的工作方式——通过根据其对物理和对象行为的理解来预测每个像素如何随时间变化。

只是世界模型会响应用户在世界中导航时的输入，通过移动镜头或与其中包含的人和对象交互，而不仅仅是解释提示来决定应该生成什么视频。

使用这种方法，整个世界基于模型对环境和对象应如何行为的内部理解，逐帧连续生成。

这种方法允许创建高度灵活、逼真和独特的环境。例如，想象一个视频游戏世界，字面上可以发生任何事情。可能性不限于游戏程序员编写到代码中的情况和选择，因为模型会生成视觉和声音来匹配玩家做出的任何选择。

一个主要缺点是这种方法需要大量计算资源。这意味着当今最先进的实时世界模型由于高CPU开销，在保持世界一致性方面仅限于几分钟。

这就是为什么其他模型采用不同的方法来解决世界生成问题。它们不是实时逐帧生成世界，而是接受提示并将其转换为持久的几何模型、数字资产和物理元数据。

然后可以下载这些数据并导入其他软件工具中进行操控、编辑和探索。

谁在构建世界模型

一些AI领域的知名公司目前正在开发自己的世界模型。

其中包括谷歌，其Genie 3平台目前处于研究预览阶段，能够创建保持数分钟持续性的世界。

Meta（Facebook）也在开发自己的世界模型，采用与谷歌相同的动态生成技术。其平台Habitat 3旨在创建虚拟环境，让具身AI（物理机器人）可以在部署到现实世界之前，在其中训练导航、操控对象和与人类安全交互。

然而，由AI先驱李飞飞领导的World Labs采用了不同的方法，其Marble世界模型从文本、图像或视频提示创建持久的、可下载的3D环境。

甚至埃隆·马斯克也参与其中，他的xAI开发团队正在开发一个目前未命名的世界模型，据报道将用于视频游戏和训练机器人。

它们将做什么

从商业角度来看，世界模型的应用案例可能与文本、图像和声音生成一样无限。

除了在视频游戏和娱乐领域的明显用途外，潜在应用案例包括医疗保健环境，可以用来创建临床环境的沉浸式数字孪生来模拟患者交互。

这些环境还将用于为工业机器人、自动驾驶汽车和其他将在现实环境中运作的具身AI对象创建虚拟训练场。

它们将让制造商在工厂中测试新的布局、设备放置和工作流程，为安全、能效和减少停机时间建模。

建筑师将使用它们来建模、查看和交互建筑物，在放置第一块砖之前测试它们如何对物理、照明、气流和人员移动做出反应。

由于它们将在微观和宏观尺度上建模，它们可以用来模拟人体环境和决定新药物和治疗方法功效的分子反应。

为什么这如此重要

我相信世界模型有潜力成为当前正在进行的由生成式AI驱动的商业和社会更广泛转型不可或缺的一部分。

我不是唯一这样想的人——实际上，谷歌DeepMind的杰克·帕克-霍尔德和什洛米·弗鲁赫特表示，他们相信这将是通往通用人工智能道路上的关键踏脚石。

通用人工智能，即AI发展的当前"圣杯"，通常被概括为指能够将其知识和能力应用于任何任务的机器，无论它们是否接受过专门训练来做这件事，就像人类一样。

为了导航和理解世界，AI需要知道世界是如何构建的、由什么组成的，以及如何保持在一起。

世界模型承诺以增强其语言和视觉能力的方式赋予它这种能力。

这就是为什么我相信它们是当前AI发展中最令人兴奋和至关重要的领域之一，任何想要了解AI将如何影响和塑造未来的人都应该饶有兴趣地关注这个领域。

Q&A

Q1：世界模型是什么？它能做什么？

A：世界模型是一种AI工具，旨在生成身临其境的3D环境，完整包含居民和运行的物理系统。用户可以探索和操控这些环境，就像真的身处其中一样。它们能创建类似视频游戏或虚拟现实中的3D空间，但完全由机器构建而非人类制作。

Q2：目前有哪些公司在开发世界模型？

A：主要包括谷歌的Genie 3平台、Meta的Habitat 3平台、由李飞飞领导的World Labs的Marble世界模型，以及埃隆·马斯克的xAI开发团队。这些公司采用不同的技术方法，有的专注于动态生成，有的创建持久可下载的3D环境。

Q3：世界模型在实际应用中有什么用途？

A：应用领域广泛，包括医疗保健中创建临床环境的数字孪生、为工业机器人和自动驾驶汽车创建虚拟训练场、帮助制造商测试工厂布局和工作流程、让建筑师在建造前测试建筑物的物理反应，以及模拟人体环境和分子反应来测试新药物功效。

来源：Forbes

0赞

好文章，需要你的鼓励

AI发展的下一个巨大飞跃：世界模型

来源：Forbes

2025

12/09

08:21

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

为AI做好数据和数据文化准备

OpenAI企业版使用量暴增，应对谷歌竞争威胁

Anthropic基于新AI工具开展大规模调查研究

FADU对CXL技术投资降温，质疑高带宽闪存发展前景

开源和编排将在2026年定义企业AI领导力

AWS re:Invent 2025云服务企业级AI智能体技术重大发布会

人工智能的下一个前沿是人脑接口技术

OpenAI计划下周发布GPT-5.2应对谷歌竞争

数据中心安全和设计缺口：被忽视的关键问题

智能体即服务将重塑软件行业和企业结构

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会