大语言模型是当今人工智能的技术基础。像ChatGPT和Gemini这样的聊天机器人使用大语言模型来生成你在屏幕上看到的自然语音文本。但大语言模型可能不是最具影响力的AI技术。
谷歌DeepMind首席执行官德米斯·哈萨比斯在世界经济论坛上对彭博社表示:"这些大语言模型将是最终AI系统的一个极其重要的组成部分,我心中唯一的疑问是,它是唯一的组成部分吗?"
哈萨比斯接着谈到其他突破性技术的到来将如何确保下一代AI系统无缝协作。其中一个"非常重要"的突破就是世界模型。世界模型旨在将我们的物理世界——如物理定律、物体检测和运动——转化为AI能够理解的数字蓝图。它不太关注创建文字,而更专注于理解我们的自然世界,这正是当前AI模型不擅长的地方。
你可能不会像使用基于大语言模型的技术(如聊天机器人)那样与世界模型进行交互。然而,世界模型将展示AI如何创建逼真的视频、引导手术机器人以及增强自动驾驶汽车的驾驶能力。它们是开发所谓物理AI的重要构建模块——这种技术不仅理解我们的世界,还能在其中采取行动。
各种AI先驱者都发出了转向构建世界模型的信号。领先的AI先驱扬·勒丘恩最近离开了他在Meta领导AI工作的职位,加入了一家专注于构建世界模型的初创公司。被亲切地称为AI教母的李飞飞表示,空间智能——理解物理环境的能力——是技术创新的下一个前沿。
"空间智能将改变我们创建真实和虚拟世界以及与之交互的方式——彻底改变叙事、创造力、机器人技术、科学发现等领域,"她在11月的一篇博客文章中写道。
英伟达首席执行官黄仁勋也在他的CES 2026主题演讲中专门讲述了公司在世界模型方面的努力。黄仁勋表示,构建一个基于物理定律和客观真理的AI模型首先要从用于训练的数据开始。
每种类型的AI模型都需要大量数据来构建和完善其输出。通常,AI公司依赖真人创建的内容——无论是否得到许可——这导致了重大的法律纠纷。世界模型可以用人类数据(包括模拟数据)来构建。这些数据对于构建能够推理和做出因果判断的世界模型至关重要。
英伟达使用世界模型的一个领域是自动驾驶汽车。在现场演示中,英伟达展示了其世界模型Cosmos如何使用汽车传感器来理解自身位置以及道路上每一辆附近汽车的位置,以创建周围环境的实时视频。开发人员可以使用这些信息运行各种场景,如车祸,来查看车辆会如何响应并进行必要的安全改进。合成数据或非人工生成的数据也可以与世界模型一起使用,帮助预测罕见的"边缘情况"。
随着AI继续融入我们在线生活的每一个部分,它能够理解我们的物理世界变得至关重要,而不是继续出现幻觉和犯错误。行业领导者对空间智能、世界模型和物理AI的重新研究和投资表明,该行业不会只是构建更多的聊天机器人——它正在致力于构建更植根于我们现实的AI,而不是相反。
Q&A
Q1:世界模型是什么?它有什么作用?
A:世界模型是将物理世界——如物理定律、物体检测和运动——转化为AI能够理解的数字蓝图的技术。它专注于理解自然世界,能让AI创建逼真视频、引导手术机器人以及增强自动驾驶汽车的驾驶能力。
Q2:世界模型与大语言模型有什么区别?
A:大语言模型主要用于生成自然语音文本,而世界模型不太关注创建文字,更专注于理解物理世界。世界模型是构建物理AI的重要组成部分,这种技术不仅理解世界还能在其中采取行动。
Q3:英伟达的世界模型Cosmos在自动驾驶中如何应用?
A:英伟达的Cosmos使用汽车传感器来理解自身位置以及道路上每辆附近汽车的位置,创建周围环境的实时视频。开发人员可以运行车祸等场景来测试车辆响应并进行安全改进。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。