Cosmos 3如何帮助物理AI在行动前进行思考

现实世界始终处于运动状态。为实现自主运行，包括机器人、自动驾驶汽车和智能空间在内的物理AI系统不仅需要理解它们所看到的内容及其成因，还需要预测接下来可能发生的情况。英伟达在台北GTC大会上发布的Cosmos 3世界基础模型，将视觉推理与文本、视频、图像、环境声音和动作的多模态生成整合在单一模型中，帮助开发者创建具有物理上下文的世界数据。

现实世界始终处于运动之中。为了实现自主运行，物理AI系统——包括机器人、自动驾驶汽车和智能空间——不仅需要理解它们所看到的内容以及导致这些现象发生的原因，还需要预测接下来可能发生什么。

在仓库中，机器人可能会遇到从未见过的物体配置。在道路上，自动驾驶汽车可能需要在行人从停放的车辆之间走出时做出反应。而在工厂里，安全系统必须预测叉车的行进方向，而不仅仅是检测到它的存在。

在现实世界中捕捉和重现这些场景既缓慢又昂贵，而且往往无法大规模重复。

NVIDIA Cosmos 3正是为此而生。这款全新的世界基础模型在今天于台北COMPUTEX举办的NVIDIA GTC大会上发布，它将视觉推理和多模态生成能力整合在单一模型中，涵盖文本、视频、图像、环境声音和动作，帮助开发者创建具有物理上下文的世界数据。

Q&A

Q1：NVIDIA Cosmos 3是什么？

A：NVIDIA Cosmos 3是一款世界基础模型，它将视觉推理和多模态生成能力整合在单一模型中，能够处理文本、视频、图像、环境声音和动作等多种模态，帮助开发者为物理AI系统创建具有物理上下文的世界数据。

Q2：物理AI系统为什么需要预测能力？

A：物理AI系统如机器人、自动驾驶汽车和智能空间需要在现实世界中自主运行。它们不仅要理解当前看到的内容和原因，还需要预测接下来可能发生的情况，以便做出正确的决策和反应，比如应对突然出现的行人或预测叉车的行进方向。

Q3：为什么在现实世界中训练物理AI系统很困难？

A：在现实世界中捕捉和重现训练场景既缓慢又昂贵，而且往往无法大规模重复。比如仓库中的特殊物体配置或道路上的突发情况，这些场景难以在真实环境中反复创建用于训练。

来源：NVIDIA

0赞

好文章，需要你的鼓励

Cosmos 3如何帮助物理AI在行动前进行思考

来源：NVIDIA

2026

06/01

17:41

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

英伟达将1万亿参数AI超算压缩至桌面工作站

英伟达工厂运营蓝图为制造业注入AI大脑

AI基础设施为何转向800 VDC供电架构

Cognition创始人吴思齐：AI编程智能体不应取代人类

Google推出开源Agent Executor支持企业级AI智能体部署

DeepSeek V4-Pro大幅降价加剧AI价格战

谷歌推出开源Agent Executor支持生产环境AI智能体运行

欧洲央行警告银行注意AI带来的新风险

《宝可梦Go》开发商想用你的无人机照片训练AI

高通与字节跳动合作：借鉴超大规模云服务商策略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: