大语言模型已经成为商业领域的标准配置,拥有更多参数和前沿功能的新模型不断涌现。但有AI专家认为,无论规模多大,大语言模型在解决现实世界问题方面都有局限性。在这一背景下,阿联酋阿布扎比穆罕默德·本·扎耶德人工智能大学基础模型研究所刚刚发布了全新的PAN"世界模型",该模型结合了大语言模型和其他先进技术。
几个月前,笔者曾报道过MBZUAI在开发完全开源的K2 Think AI推理模型中的作用。从我的观点来看,PAN模型显著提高了标准。虽然K2 Think很好地融入了现有的大语言模型格局,但该大学将PAN定位为向新型基础模型的转变,旨在对现实世界条件进行更有用的仿真。
这个模型之所以重要,是因为它具有以下特性:
通用性——在一个领域学到的知识可以迁移到另一个领域。
交互性——你可以在不同步骤中对其进行操控,以提高仿真的速度和质量。
长期一致性——它被设计成能够在比标准大语言模型更长的时间段内保持一致性。
所有这些特性都应该有助于其在具身AI、机器人技术以及自主系统设计和测试中的实际应用。
让AI想象、预测并推理现实世界
现有的许多大语言模型接受文本或视觉输入,然后通过或多或少准确地猜测场景中的像素如何从一帧移动到下一帧来生成运动图像。公平地说,这种生成式AI在过去几年中变得更加视觉震撼,并且持续快速改进。
但要在工业安全、自动驾驶或机器人技术等应用中真正有用,模型需要对场景中涉及的几何形状和物理学有更深入的理解。这使PAN能够超越脚本化步骤,实际学习现实世界中材料的行为方式,然后通过"物理推理"的迭代过程将这些知识应用到给定任务中。当这个过程在长链的因果关系中重复进行,并在持续的世界状态背景下进行时,你就能获得比典型大语言模型所能提供的更有用的仿真。
这种现实世界的可用性正是PAN的目标。正如PAN团队刚发表的学术论文所解释的,这个世界模型"使智能体能够想象、预测和推理世界如何响应其行动而演变,并相应地进行规划和制定策略"。PAN使用称为生成潜在预测的架构,通过视频仿真预测未来状态,并结合仿真历史和用户的自然语言输入。这种仿真以大语言模型为基础,帮助其保持长期一致性,同时使用视频扩散解码器来整合视觉观察,"实现潜在空间推理(想象)和可实现的世界动力学(现实)之间的统一"。
PAN还使用"因果滑动窗口"过程,消除视觉不一致性,防止质量在长时间内下降。PAN不是制作一个视觉震撼的视频片段,而是被设计来串联数百或数千个因果一致的步骤,以支持AI智能体进行规划和决策。例如,这应该对改善多用途工业机器人的功能大有帮助,这些机器人的工作超越了遵循有限的脚本化动作。
该模型还利用分支操作,团队表示这使其成为真正的AI推理工具,而不仅仅是生成工具。分支意味着模型可以从单一点仿真多个潜在的未来,这应该使其成为帮助AI智能体在给定过程中选择最佳下一步的绝佳沙盒。
最终,PAN被设计为创建一个可以引导、测试和推理的稳健虚拟现实。从更大的图景来看,MBZUAI的开发者做出了一个明智的赌注,即下一个高价值AI技术栈将建立在超越甚至最大规模大语言模型能力的世界模型之上。
致力于改变AI世界模型的范式
PAN预计将在12月初作为网络应用程序向公众开放。团队计划在那时推出包含视频和技术细节的登陆页面,交互版本将在改进实施后推出。我迫切希望亲自测试它,也想了解PAN是否会像K2 Think那样开源。(这个决定仍在待定中。)
如果PAN按计划运行,它可能为机器人技术和自主系统等领域的创新节省大量时间和精力。例如,训练自动驾驶汽车需要数百万小时昂贵、往往繁琐且有时危险的数据收集。其开发者表示,PAN可以以更低的成本在不同场景中生成大量准确的合成数据。关键是,这可以应用于罕见事件,包括像山路上突然发生的岩石滑坡,或如本文顶部图像所示的卡车上掉落的箱子等危险事件。
在此过程中,它也可能实现进一步确立MBZUAI作为全球AI生态系统重要贡献者和AI人才磁石的目标。在准备这篇文章时,我有机会与担任MBZUAI校长的Eric Xing博士交谈。Xing教授获得了众多奖项,他对这项工作的热情是显而易见的,对能够造福所有人的开源、开放获取AI方法的支持也是如此。他将PAN视为"阿联酋和美国之间伙伴关系的成功,因为双方都有信任"。PAN团队包括许多在硅谷工作的成员,Xing博士认为这"重申了开放和协作的研究环境确实能够实现伟大的思想"。
Xing博士告诉我,他希望PAN的技术方法能够鼓励其他模型制造商考虑PAN试图解决的模型固有限制。最终,他认为像PAN这样的世界模型在多个领域都有巨大的应用。特别是,由于其通过分支仿真进行离线"思想实验"的能力,PAN极大地扩展了用于训练和改进AI智能体的输入范围。
显然,还有更多工作要做。PAN对复杂物理学的掌握并不完美;例如,透明物体和布料等非刚性材料的动力学仍需要更好的处理。即使是最有教养的世界模型也必须证明其在不同行业的不同领域中泛化的能力。因此,要完全相信PAN的效力,我希望看到公开演示,其中外部智能体成功使用PAN作为沙盒来实现复杂目标。如果营利性技术供应商将其用于实际应用,这将更加有力。
与此同时,我必须钦佩一个来自传统学术层次结构之外的学术机构的雄心,它挺身而出填补它认为的顶级开源AI模型的空白。如果PAN成功,它可能有助于重塑AI发展,其影响远远超出其在阿联酋的起源。
Q&A
Q1:PAN世界模型是什么?它有什么特殊能力?
A:PAN是阿联酋MBZUAI发布的新型AI世界模型,结合了大语言模型和其他先进技术。它具有通用性、交互性和长期一致性三大特性,能够进行物理推理,通过视频仿真预测未来状态,并支持AI智能体进行规划和决策,特别适用于机器人技术和自主系统应用。
Q2:PAN世界模型与传统大语言模型有什么区别?
A:传统大语言模型主要通过猜测像素移动生成图像,而PAN模型具有对几何和物理学的深入理解,能够学习现实世界材料的行为方式。PAN还具有分支操作功能,可以从单一点仿真多个潜在未来,是真正的AI推理工具而不仅仅是生成工具。
Q3:PAN世界模型什么时候可以使用?有哪些应用前景?
A:PAN预计将在12月初作为网络应用程序向公众开放。它在自动驾驶、工业机器人、工业安全等领域有巨大应用前景,能够生成大量准确的合成数据,特别适用于罕见和危险场景的仿真,可能为相关领域的创新节省大量时间和成本。
好文章,需要你的鼓励
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
南洋理工大学研究团队开发出Puffin统一模型,首次将AI的图像理解和生成能力融合。通过创新的"用相机思考"方法,将相机参数转换为摄影术语,让AI像摄影师一样理解空间关系。基于400万样本数据集训练,模型在相机角度理解和可控图像生成上均超越专业化模型,并支持空间想象、摄影指导等多元应用,为空间智能AI发展开辟新路径。
AI代码编辑器开发商Cursor完成23亿美元D轮融资,估值达293亿美元。Accel和Coatue领投,Google、Nvidia等参与。公司年化收入已突破10亿美元。Cursor基于微软开源VS Code打造,集成大语言模型帮助开发者编写代码和修复漏洞。其自研Composer模型采用专家混合算法,运行速度比同等质量模型快四倍。公司拥有数百万开发者用户,将用新资金推进AI研究。
KAIST研究团队开发出MPO多模态提示优化框架,首次实现同时优化文字和视觉提示,让AI能够像人类一样接收多种信息类型。该技术在10个数据集上平均性能提升6.8%,同时节省42%评估成本,为医疗影像、自动驾驶、药物研发等领域提供了新的AI交互方式,标志着从纯文字交流向多模态交流的重大突破。