Nvidia 在 AI 机器人领域再下一城：推出 Cosmos 平台

在 CES 2024 上，Nvidia 发布了名为 Cosmos 的生成式 AI 技术，旨在加速物理 AI 开发。该技术通过生成准确的物理感知视频来模拟虚拟环境，可大幅减少机器人 AI 训练所需的资源。Cosmos 与 Nvidia 的 Omniverse 数字孪生平台配合使用，为机器人和自动驾驶领域提供了全栈解决方案，有望推动 Nvidia 在这些领域的业务快速发展。

在可能是 CES 历史上观众最多的主题演讲中，Nvidia CEO 黄仁勋在座无虚席的 Michelob Ultra 体育场发布了一系列令人目不暇接的新技术。从面向消费者的新款 GeForce RTX 50 系列游戏显卡，到基于公司最新 Blackwell GPU 技术的安全自动驾驶平台 Thor，以及更多产品。然而，一项名为 Cosmos 的新型 Nvidia 生成式 AI 技术，可能因其复杂性被一些人忽略，但在我看来，它是另一个重要亮点。我甚至敢说，如果 Cosmos 按照公司的设想发展，它可能成为推动 Nvidia 机器人和自动驾驶业务腾飞的助推器。

理解 Nvidia Cosmos 物理 AI

Nvidia 将 Cosmos 称为"加速物理 AI 开发的平台"。简单来说，物理 AI 可以理解为任何机器人背后的大脑，无论是设计用于最优化适应我们生活世界的人形机器人、工厂自动化机器人，还是为在道路上运载人类或各类货物而优化的自动驾驶汽车。然而，训练机器人 AI 需要大量的人力和资源投入，通常需要捕获、标注和分类数百万小时的真实环境中的人类互动，或者在全球实际道路上行驶数百万英里。

Nvidia Cosmos 旨在通过一系列称为"世界基础模型" (WFM) 的技术来部分解决这个资源问题。这些 AI 神经网络可以为虚拟环境的未来状态生成具有准确物理特性的视频 - 可以称之为多元宇宙。这听起来很深奥，但实际上相当直观。WFM 类似于大语言模型，但与用于自然语言识别、生成和翻译的 LLM 不同，WFM 利用文本、图像、视频内容和运动数据来生成模拟虚拟世界和虚拟世界互动，具有准确的空间感知、物理特性和物理交互，甚至物体永久性。例如，如果工厂里的螺栓从桌子上滚落，即使当前摄像机视角看不到，AI 模型也知道它仍然存在，可能只是掉在地板上。

跟上了吗？很好，因为接下来会更有趣。这种用于训练物理 AI 或机器人的新型合成数据生成方式需要基于真实数据才能准确。换句话说，输入错误的数据意味着模型会产生幻觉或在生成机器人 AI 训练数据时不可靠。这就是 Nvidia 几年前宣布的 Omniverse 平台发挥作用的地方。

Cosmos 与 Nvidia Omniverse 数字孪生集成

Nvidia 的 Omniverse 数字孪生操作系统允许来自任何行业的公司和开发者在一个环境中模拟产品、工厂、机器人、车辆等，该环境设计用于连接行业标准工具，从计算机辅助设计到动画等。实际上，Nvidia 在 CES 2025 上还发布了新的 Omniverse "蓝图"，以帮助开发者模拟工厂和仓库的机器人车队 (称为 Mega)、自动驾驶模拟、用于大规模工业数字孪生的 Apple Vision Pro 头显空间流媒体，以及实时计算机辅助工程和物理可视化。公司还为 OpenUSD（通用场景描述）提供免费教程，这是支撑 Omniverse 并允许集成行业标准工具和内容的语言。Nvidia 宣布多个主要企业正在采用其 Omniverse 平台，从用于半导体 EDA 设计工具的 Cadence，到用于计算流体动力学的 Altair 和 Ansys 等。

回到 Cosmos，我们现在可以看到 Nvidia 在机器人物理 AI 方面的完整解决方案正在成形。Cosmos 模型从真实世界的数字化版本获取输入，然后生成 AI 训练内容。根据黄仁勋在主题演讲中透露，虽然 Cosmos 模型是通过训练 2000 万小时的视频数据开发的，但希望在自己的数字孪生和数据上训练物理或机器人 AI 的开发者可以在 Omniverse 中进行模拟，然后让 Cosmos 播放出这些机器人 AI 可以训练的各种合成现实。

Cosmos 会成为 Nvidia 的又一个 CUDA 时刻吗？

此时，我知道你在想什么。在模拟数据和模拟世界中训练机器人，会出什么问题？毫无疑问，这项技术仍处于初期阶段，但俗话说得好，万事开头难。机器学习虽然容易产生幻觉，需要有防护措施 (Nvidia 在这方面有完善的工具和政策)，但其优势在于可以不断训练，直到确信达到正确结果。而且机器不需要睡觉或喝咖啡休息，更不用说它比手动在人类生成和分类的内容上训练 AI 效率高得多。

话说回来，多年前，当 Nvidia 首次发布其 CUDA 编程语言，引发了 GPU 加速器上机器学习的时代时，公司采取了类似约翰尼苹果籽的策略，向各行各业的开发者提供工具，最终使其成为数据中心 AI 工作负载加速的事实标准。对于 Cosmos，Nvidia 再次在其开放模型许可下免费向开发者提供这些生成式 AI 世界基础模型，可以在 Hugging Face 或公司自己的 NGC 目录库访问。这些模型也将很快作为优化的 Nvidia 推理微服务 (NIM) 提供，所有这些都将在其 DGX 数据中心 AI 平台上加速，并在 AI 边缘设备、机器人和自动驾驶车辆中使用其 AGX Drive Orin 和 Thor 汽车计算平台。或者，正如黄仁勋和公司所称的"Nvidia 机器人 3 计算解决方案"。

Nvidia 指出，物理 AI 领域的几个大牌玩家已经采用了 Cosmos，从人形机器人公司如 1X 和 XPENG，到用于通用机器人的 Hillbot 和 SkildAI，再到网约车巨头 Uber，后者正在将 Cosmos 与其海量驾驶数据集结合使用，帮助为自动驾驶行业构建 AI 模型。

将这称为 Nvidia 的另一个"CUDA 时刻"可能有点牵强，但这家 AI 领域的全球领导者刚刚为物理 AI 开发者推出了一些非常强大的新工具，而且是免费的。我个人认为这是黄仁勋和他的 AI 魔法师团队的又一个高明之举。我们将拭目以待 Cosmos 会将这个机器人 AI 多元宇宙带向何方，这将是一个令人着迷的过程。

来源：Forbes

0赞

好文章，需要你的鼓励

Nvidia 在 AI 机器人领域再下一城：推出 Cosmos 平台

来源：Forbes

2025

01/15

14:11

分享

点赞

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径