前沿AI研究机构Decart近日推出了最新世界模型Oasis 3,旨在弥合合成仿真与实体AI之间的鸿沟。
这款全新的视频输出模型专为加速机器人和自动驾驶汽车操作系统模型的训练而设计,目标是打造能够从容应对现实世界不确定性的智能硬件。
训练数据匮乏,机器人研发面临重大挑战
机器人开发者长期面临一大难题:用于训练机器在复杂物理环境中运作的有效数据严重不足。
自动驾驶汽车在固定锥桶的静态停车场中学会导航并不困难,但这类环境与真实道路相去甚远——尤其是在天气和光照条件不断变化的情况下。要让车辆在倾盆大雨中穿越混乱的城市街道,同时对突然冲出的狗做出即时反应,则是截然不同的挑战。Oasis 3正是为破解这一难题而生。
大语言模型的发展速度远超通用机器人(即实体AI)领域,根本原因在于前者拥有海量媒体资源可供利用。正如Bessemer Ventures在今年早些时候的研究报告中所指出的,大语言模型开发者可以从公共互联网上抓取数十亿网页,而驱动机器人与物理世界交互所需的视觉-语言-动作(VLA)模型却没有这种便利。
VLA模型的工作原理是摄取环境数据、处理并理解当前状况,最终对输入做出反应。在训练方式上,开发者目前有三条路可走。
第一种是自建远程操控数据,即让人穿上特制装备模拟机器人在特定场景中的动作。这种方式数据质量最高,但成本极高、效率极低,难以扩展到所需规模。
第二种是使用网络公开视频。此类资源数量充足,但因内容杂乱而实用性有限——环境缺乏一致性,无法按需复现所需的多样化条件,也缺少空间数据遥测和直接动作条件信息。
第三种是使用合成数据,介于前两者之间。但现有物理引擎质量参差不齐,因其规则边界僵硬,难以还原真实世界的细微变化。
研究人员将这种差距称为"仿真到现实的鸿沟"。简而言之,现有用于生成机器人虚拟训练环境的AI软件,根本无法模拟真实世界中千变万化的随机状况——例如路面油污或仓库中异常易碎的纸箱。一旦遭遇此类突发情况,自动驾驶汽车和机器人往往不知所措。
Oasis 3如何弥合仿真与现实的差距
Decart表示,Oasis 3的设计目标是突破现有虚拟训练环境的局限,将照片级真实感的交互式动态图形能力与强大的物理引擎融为一体。
两者被整合在一个高性能训练循环中,使Oasis 3能够生成动作条件化视频流,开发者可以在其中模拟几乎任何能够想象到的混乱场景,从而构建出更贴近物理世界的优质训练环境。
开发者可利用Oasis 3创建多视角环境,既高度逼真,又可精确控制。当自动驾驶汽车向左偏转时,实时生成流会在200毫秒以内即时调整视角,完全满足强化学习所需的延迟要求。
该模型与英伟达的实体AI生态系统协同设计,运行于CoreWeave的专用云基础设施之上,帧率达到每秒22帧,可生成512×768×3分辨率的交互式虚拟环境。
Oasis 3原生支持三摄像头视角,以确保多角度的空间与时间一致性,帮助自主系统准确判断深度和周边环境。该模型通过Decart的API对外开放,开发者可轻松将其集成到现有的实体AI仿真工作流程中。
无限场景生成,让机器人为一切意外做好准备
要让实体AI达到科幻作品中类人机器人的水平,开发者必须能够实时训练机器人应对各种极端边缘案例。
这意味着需要创造出在实验室中根本无法复现的场景,例如:一辆卡车在行驶中货物脱落,恰好落在一辆摄像头已被泥巴遮住的自动驾驶车辆前方。
这正是Oasis 3能够实现的场景类型。借助简单的自然语言提示,开发者可以生成此类事件的无限变体——涵盖多种拍摄角度、各类恶劣天气条件以及不同路面类型。
开发者或许终于找到了一种经济实惠的方式,让自己的模型接触数百万种不同的危险场景,确保其能够应对现实世界中一切可能发生的突发情况。
Q&A
Q1:Oasis 3是什么?它主要解决什么问题?
A:Oasis 3是由AI研究机构Decart推出的世界模型,专为机器人和自动驾驶汽车的训练而设计。它的核心目标是弥合"仿真到现实的鸿沟"——即现有虚拟训练环境无法真实还原现实世界复杂性和随机性的问题。通过融合照片级真实感图形与强大物理引擎,Oasis 3能够生成高度逼真且可控的训练场景,帮助自主系统为现实中的各种极端情况做好准备。
Q2:VLA模型的训练为什么这么难?
A:VLA(视觉-语言-动作)模型需要摄取环境数据、理解当前状况并做出反应,对训练数据的质量和多样性要求极高。现有三种训练方式各有局限:远程操控数据质量高但成本极高难以规模化;网络公开视频数量多但内容杂乱、缺乏空间数据;合成数据介于两者之间,但受限于物理引擎的僵化规则,难以模拟真实世界的细微变化和随机事件。
Q3:Oasis 3的技术性能指标是怎样的?
A:Oasis 3运行于CoreWeave的专用云基础设施之上,与英伟达实体AI生态协同设计,能够以每秒22帧的速度生成512×768×3分辨率的交互式虚拟环境。在响应延迟方面,当自动驾驶车辆改变方向时,视角调整延迟低于200毫秒,满足强化学习的实时性需求。此外,Oasis 3原生支持三摄像头视角,保证多角度的空间与时间一致性,并通过API向开发者开放集成。
好文章,需要你的鼓励
仿人机器人与自动驾驶汽车在区域架构、功能安全及雷达传感方面高度相似。多分辨率摄像头组合可更好地模拟人类视野,兼顾广角低保真与局部高精度需求。自然运动需实时计算正逆运动学、距离与深度,同时须兼顾功耗效率。当前视觉与基础操控技术最为成熟,而触觉、全身协调及非结构化环境中的移动能力仍是主要挑战。业界正借鉴自动驾驶经验,加速推进仿人机器人的规模化落地。
这项研究提出Epi2Diff方法,通过将大型推理模型的解题思考过程拆解为认知片段序列,提取过程特征预测考题对人类的难度,在四个真实考试数据集上超越了所有对比基线。
随着AI技术发展,攻击者可融合白市、灰市及黑市数据,构建个人及其环境的数字孪生体,使定向攻击更为便捷。专家指出,AI与网络安全的核心交汇点是数据本身。防御AI数据融合攻击需依赖硬件信任根、强加密、安全密钥存储及严格的数据匿名化措施。芯片架构师需将安全设计嵌入硬件层,确保数据完整性验证、隔离执行及认证数据流,以应对日益复杂的运行时攻击面。
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。