近年来,我们已经习惯了看到AI生成的文本、图片、视频甚至计算机代码。但如果它能更进一步,创造出完整的世界呢?
对于致力于开发能够模拟完整3D环境的生成工具类别的开发者来说,这正是他们的目标。
世界模型旨在生成身临其境的3D环境,完整包含居民和运行的物理系统,我们可以探索和操控这些环境,就像真的身处其中一样。
想象一下我们在视频游戏或虚拟现实中移动的那种3D空间,但这些空间不是人类精心制作的,而是完全由机器构建的。
人们认为世界模型将对工程学、建筑学、机器人学和医学等各个领域产生巨大影响,通过创建有助于我们理解真实世界的模拟环境。
让我们深入了解一下这些世界模型到底是什么、谁在构建它们,以及为什么它们是当今AI研究最重要的领域之一。
世界模型如何运作
AI模型目前可以使用两种不同的方法来创建虚拟世界和环境。
第一种是在用户与世界交互时动态建模一切。这类似于生成视频模型的工作方式——通过根据其对物理和对象行为的理解来预测每个像素如何随时间变化。
只是世界模型会响应用户在世界中导航时的输入,通过移动镜头或与其中包含的人和对象交互,而不仅仅是解释提示来决定应该生成什么视频。
使用这种方法,整个世界基于模型对环境和对象应如何行为的内部理解,逐帧连续生成。
这种方法允许创建高度灵活、逼真和独特的环境。例如,想象一个视频游戏世界,字面上可以发生任何事情。可能性不限于游戏程序员编写到代码中的情况和选择,因为模型会生成视觉和声音来匹配玩家做出的任何选择。
一个主要缺点是这种方法需要大量计算资源。这意味着当今最先进的实时世界模型由于高CPU开销,在保持世界一致性方面仅限于几分钟。
这就是为什么其他模型采用不同的方法来解决世界生成问题。它们不是实时逐帧生成世界,而是接受提示并将其转换为持久的几何模型、数字资产和物理元数据。
然后可以下载这些数据并导入其他软件工具中进行操控、编辑和探索。
谁在构建世界模型
一些AI领域的知名公司目前正在开发自己的世界模型。
其中包括谷歌,其Genie 3平台目前处于研究预览阶段,能够创建保持数分钟持续性的世界。
Meta(Facebook)也在开发自己的世界模型,采用与谷歌相同的动态生成技术。其平台Habitat 3旨在创建虚拟环境,让具身AI(物理机器人)可以在部署到现实世界之前,在其中训练导航、操控对象和与人类安全交互。
然而,由AI先驱李飞飞领导的World Labs采用了不同的方法,其Marble世界模型从文本、图像或视频提示创建持久的、可下载的3D环境。
甚至埃隆·马斯克也参与其中,他的xAI开发团队正在开发一个目前未命名的世界模型,据报道将用于视频游戏和训练机器人。
它们将做什么
从商业角度来看,世界模型的应用案例可能与文本、图像和声音生成一样无限。
除了在视频游戏和娱乐领域的明显用途外,潜在应用案例包括医疗保健环境,可以用来创建临床环境的沉浸式数字孪生来模拟患者交互。
这些环境还将用于为工业机器人、自动驾驶汽车和其他将在现实环境中运作的具身AI对象创建虚拟训练场。
它们将让制造商在工厂中测试新的布局、设备放置和工作流程,为安全、能效和减少停机时间建模。
建筑师将使用它们来建模、查看和交互建筑物,在放置第一块砖之前测试它们如何对物理、照明、气流和人员移动做出反应。
由于它们将在微观和宏观尺度上建模,它们可以用来模拟人体环境和决定新药物和治疗方法功效的分子反应。
为什么这如此重要
我相信世界模型有潜力成为当前正在进行的由生成式AI驱动的商业和社会更广泛转型不可或缺的一部分。
我不是唯一这样想的人——实际上,谷歌DeepMind的杰克·帕克-霍尔德和什洛米·弗鲁赫特表示,他们相信这将是通往通用人工智能道路上的关键踏脚石。
通用人工智能,即AI发展的当前"圣杯",通常被概括为指能够将其知识和能力应用于任何任务的机器,无论它们是否接受过专门训练来做这件事,就像人类一样。
为了导航和理解世界,AI需要知道世界是如何构建的、由什么组成的,以及如何保持在一起。
世界模型承诺以增强其语言和视觉能力的方式赋予它这种能力。
这就是为什么我相信它们是当前AI发展中最令人兴奋和至关重要的领域之一,任何想要了解AI将如何影响和塑造未来的人都应该饶有兴趣地关注这个领域。
Q&A
Q1:世界模型是什么?它能做什么?
A:世界模型是一种AI工具,旨在生成身临其境的3D环境,完整包含居民和运行的物理系统。用户可以探索和操控这些环境,就像真的身处其中一样。它们能创建类似视频游戏或虚拟现实中的3D空间,但完全由机器构建而非人类制作。
Q2:目前有哪些公司在开发世界模型?
A:主要包括谷歌的Genie 3平台、Meta的Habitat 3平台、由李飞飞领导的World Labs的Marble世界模型,以及埃隆·马斯克的xAI开发团队。这些公司采用不同的技术方法,有的专注于动态生成,有的创建持久可下载的3D环境。
Q3:世界模型在实际应用中有什么用途?
A:应用领域广泛,包括医疗保健中创建临床环境的数字孪生、为工业机器人和自动驾驶汽车创建虚拟训练场、帮助制造商测试工厂布局和工作流程、让建筑师在建造前测试建筑物的物理反应,以及模拟人体环境和分子反应来测试新药物功效。
好文章,需要你的鼓励
Anthropic推出Claude Code的Slack集成功能,让开发者能直接在聊天线程中委托编程任务。这项测试功能于周一以研究预览版形式发布,基于现有Slack集成增加了完整工作流自动化。开发者现在可以标记@Claude启动完整编程会话,Claude会分析消息确定合适的代码库,在线程中发布进度更新并分享审查链接。这反映了行业趋势:AI编程助手正从IDE迁移到团队协作工具中。
波恩大学研究团队首次量化AI训练的材料成本,发现一块GPU含32种元素,93%为重金属。训练GPT-4需消耗约7吨金属材料,其中多为有毒重金属。研究建立了从计算需求到硬件消耗的评估框架,发现通过软硬件优化可减少93%的资源消耗。该研究揭示了AI发展的隐性环境代价,呼吁行业从规模竞赛转向效率革命,实现可持续发展。
AI发展推动数据中心行业迎来前所未有的挑战与机遇。Switch公司消耗内华达州三分之一电力,展现了AI对电力需求的巨大规模。核能成为AI未来发展的关键,单个AI机架功耗可达1.7MW。预计到2030年,数据中心行业将消耗200GW电力。创新的星形配置设计和差异化备电策略正在重新定义数据中心的弹性架构,仅20%的工作负载需要发电机备份。
南开大学团队构建了迄今最大规模的结肠镜AI数据库COLONVQA,包含110万视觉问答条目。他们发现现有AI模型存在泛化能力不足和容易被误导等问题,因此开发了首个具备临床推理能力的结肠镜AI模型COLONR1。该模型采用多专家辩论机制生成推理数据,在综合评估中准确率达56.61%,比传统方法提升25.22%,为智能结肠镜诊断从图像识别向临床推理的转变奠定了基础。