Decart发布世界模型Oasis 3:可实时生成逼真驾驶环境,但仍存在局限

AI初创公司Decart发布最新交互式世界模型Oasis 3,能够实时生成高度逼真的驾驶场景,并通过API开放访问,定价为每秒0.02美元。该模型初期面向自动驾驶公司,用于模拟罕见驾驶场景,未来将扩展至机器人及其他物理AI领域。Decart已完成3亿美元融资,估值近40亿美元,丰田、Adobe、eBay及英伟达均为投资方。尽管Oasis 3在真实感和无限生成能力上表现突出,但目前仍存在场景连贯性下降、物理碰撞模拟不准确等问题。

AI初创公司Decart于周三发布了旗下最新交互式世界模型Oasis 3,该模型能够实时生成具有照片级真实感的驾驶环境,目前已通过API面向开发者开放使用。

Decart最初的目标客户是需要大规模模拟稀有驾驶场景的自动驾驶公司,并计划进一步拓展至机器人及其他物理AI应用领域。但更大的战略布局在于开发者生态:通过从第一天起就开放API访问,Decart试图围绕世界模型构建一个开发者生态系统,就像当年OpenAI围绕大语言模型所做的那样。

"这将是第一个真正可用、开发者可以在上面进行编程的世界模型。"Decart联合创始人兼CEO Dean Leitersdorf表示,"我认为在此基础上将会涌现出一个完整的开发者社区。"

Decart目前已拥有超过10万名开发者社区成员,其中许多人正基于其实时视频模型Lucy构建产品,主要集中在电商和直播领域。Oasis 3以该基础模型为核心,代表着公司向物理AI领域的战略进军。在定价方面,API访问费用为每秒0.02美元,企业级定价则根据具体使用场景而定。

目前世界模型赛道竞争日趋激烈。去年,谷歌以研究预览形式发布了Genie 3,李飞飞创立的World Labs推出了面向商业应用的Marble,Luma和Runway等视频生成初创公司也在将其具有物理感知能力的视频模型转化为世界模型。

Oasis 3的发布距Decart完成3亿美元融资仅数周之隔。Leitersdorf表示,此轮融资源于公司在电商、直播及物理AI领域所构建模型的"巨大需求增长"。本轮融资后,Decart估值接近40亿美元,并引入了丰田、Adobe、eBay等一系列战略投资者。Leitersdorf表示,这些公司都是潜在客户。现有投资方英伟达也参与了本轮融资。

Oasis 3的核心优势在于模型的照片级真实感与无限生成能力。这得益于Decart另一核心产品——DOS(Decart优化栈)软件所带来的效率突破。该软件可使模型在英伟达、亚马逊和谷歌的硬件上高效运行,从而使模型运行成本远低于竞争对手。

"这建立在我们整个实时技术栈之上,我们的优化一直延伸到硬件层面。"Leitersdorf说道,"正是因为如此高度的垂直整合,我们的模型运行成本比行业内任何竞争对手低一个数量级以上。"

据Leitersdorf介绍,该公司模型效率极高,公司成立以来累计算力支出"远不足"1亿美元。

Oasis 3可生成具有物理精确性的多摄像头环境,包括一个前置摄像头和两个侧置摄像头,用于系统训练与测试。与其他仅提供有限演示或研究预览版本的产品不同,Decart允许开发者无限量生成模拟场景。

与谷歌Genie 3、World Labs的Marble等同类模型相比,Oasis 3在单一文本提示下所呈现的场景真实感最为出色。而且用户可以持续数小时与生成环境进行交互,这也印证了Decart所宣称的效率优势。

然而,正是因为允许用户长时间生成世界,模型的一致性也会随之显著下降。

在实际测试中,系统在初始场景的生成上表现稳定,能够准确呈现提示词所描述的内容,但随着用户在世界中持续移动,主题的连贯性迅速崩解。以"生成一个纽约清晨街头场景"的提示词为例,初始效果相当出色,但随着驾驶行进,周围环境逐渐失去纽约特色,变得更像是一个泛化的西方城市街景。

当尝试掉头返回起始交叉路口时,那里早已消失,取而代之的是一个全新的环境。此外,控制响应也不够灵敏,车辆的行驶方向往往难以精准控制——这也是其他世界模型中同样存在的缺陷。整体体验不像一个连贯的模拟系统,更像是一场迅速变得混乱无序的梦境意识流。

另一个同样出现在其他世界模型中的问题是:车辆会直接穿越其他车辆,说明模型在环境物理模拟方面尚不完善。Leitersdorf将此称为"我们正在攻克的重大研究难题",并将其归因于"正常驾驶数据远多于事故数据"的现实情况。

物理一致性之所以难以维持,部分原因在于Oasis 3的底层架构机制。Oasis 3采用自回归方式生成内容,即逐帧生成,并通过回溯此前生成的内容来决定下一帧的内容。这是许多世界模型的核心架构特征,也是一种对算力要求极高的机制。

为了维持一致性,Leitersdorf表示团队正致力于扩展模型的记忆长度。

"我们每生成一帧大约需要处理8,000个Token,"他说,"以每秒数十帧的速度生成,意味着每秒要处理数十万个Token,上下文窗口很快就会被填满。我们正在研究如何实现更长的上下文以存储数百万个Token,以及如何将记忆压缩为更少的Token。"

Leitersdorf认为,在下一个版本中,一致性问题或许能得到部分解决。新版本将支持用户基于真实环境视频而非图像来启动世界生成。他也坦承,世界模型作为一个研究领域,整体上仍处于早期阶段。

不过,相比于技术现阶段的局限,这位创始人更关注的是开发者介入之后将会发生什么。

"这让我想起了大语言模型发展的早期,当时OpenAI为模型发明了API接口。"他以此作为类比,指出正是开发者社区的兴起,通过不断探索和构建新的应用场景,推动了整个领域的进步。

"三个月后我们再聊,届时可以说:有100位开发者基于Oasis分别构建了100种不同的应用,这些应用让所有人都感到惊喜。"他说。

Q&A

Q1:Oasis 3是什么?它能做什么?

A:Oasis 3是AI初创公司Decart发布的最新交互式世界模型,核心能力是实时生成具有照片级真实感的驾驶环境。它支持多摄像头视角,可供自动驾驶公司用于模拟稀有驾驶场景,也向开发者开放API,允许无限量生成模拟场景,定价为每秒0.02美元。

Q2:Oasis 3目前存在哪些明显缺陷?

A:主要有三点:一是长时间运行后场景一致性显著下降,生成的环境主题会逐渐偏离初始提示词;二是无法还原已经生成过的场景,掉头返回时原始场景已消失;三是车辆会直接穿越其他车辆,说明物理碰撞模拟尚不完善。控制响应灵敏度不足也是用户在实际体验中反映的问题。

Q3:Decart是如何让Oasis 3的运行成本低于竞争对手的?

A:Decart依靠自研的DOS(Decart优化栈)软件实现了深度硬件级优化,使模型能在英伟达、亚马逊和谷歌的硬件上高效运行。凭借高度垂直整合的技术栈,Decart声称其模型运行成本比行业内其他竞争对手低一个数量级以上,公司成立以来累计算力支出也远不足1亿美元。

来源:TechCrunch - AI

0赞

好文章,需要你的鼓励

2026

06/10

23:14

分享

点赞

邮件订阅