Nvidia 推出 Cosmos-Transfer1，让机器人训练超乎寻常地真实 - 这将改变一切

Nvidia 发布了 Cosmos-Transfer1 人工智能模型，可生成高度逼真的仿真环境，用于训练机器人和自动驾驶汽车。该模型采用自适应多模态控制系统，能更精细地控制生成环境，显著提高仿真度和实用性。它解决了物理 AI 开发中模拟训练与现实应用之间的差距，为机器人和自动驾驶技术的发展带来重大突破。

Nvidia 发布了 Cosmos-Transfer1，这是一个创新的 AI 模型，使开发者能够为机器人和自动驾驶汽车训练创建高度真实的模拟环境。该模型现已在 Hugging Face 上发布，解决了物理 AI 开发中一个持续存在的挑战：即弥合模拟训练环境与现实世界应用之间的差距。

"我们推出了 Cosmos-Transfer1，这是一个条件世界生成模型，可以基于多种空间控制输入 (如分割、深度和边缘) 生成世界模拟，"Nvidia 研究人员在随发布一同发表的论文中表示。"这实现了高度可控的世界生成，在包括 Sim2Real 在内的各种世界间转换场景中都有应用。"

与之前的模拟模型不同，Cosmos-Transfer1 引入了一个自适应多模态控制系统，允许开发者在场景的不同部分对不同的视觉输入（如深度信息或物体边界）进行不同程度的权重分配。这一突破使生成环境的控制更加细致，显著提高了其真实性和实用性。

自适应多模态控制如何改变 AI 模拟技术

传统的物理 AI 系统训练方法要么需要收集大量真实世界数据（这是一个耗时且昂贵的过程），要么使用往往缺乏真实世界复杂性和可变性的模拟环境。

Cosmos-Transfer1 通过允许开发者使用多模态输入（如模糊视觉、边缘检测、深度图和分割）来解决这个困境，从而生成照片级真实的模拟，在保持原始场景关键特征的同时添加自然变化。

"在设计中，空间条件方案是自适应且可定制的，"研究人员解释道，"它允许在不同空间位置对不同的条件输入赋予不同的权重。"

这一功能在机器人技术中特别有价值，开发者可能希望对机械臂的外观和运动保持精确控制，同时允许在生成多样化背景环境时有更多创作自由。对于自动驾驶汽车来说，它能够在保持道路布局和交通模式的同时，变换天气条件、照明或城市环境。

可能改变机器人技术和自动驾驶的物理 AI 应用

项目核心贡献者之一的 Ming-Yu Liu 博士解释了这项技术对行业应用的重要性。

"策略模型指导物理 AI 系统的行为，确保系统安全运行并符合其目标，"Liu 和他的同事在论文中指出。"Cosmos-Transfer1 可以后期训练成策略模型以生成动作，节省了手动策略训练的成本、时间和数据需求。"

该技术在机器人模拟测试中已经证明了其价值。当使用 Cosmos-Transfer1 增强模拟机器人数据时，Nvidia 研究人员发现该模型通过"添加更多场景细节、复杂阴影和自然光照"显著提高了照片真实感，同时保持了机器人运动的物理动态特性。

对于自动驾驶汽车开发，该模型使开发者能够"最大化利用现实世界的边缘案例"，帮助车辆学习处理罕见但关键的情况，而无需在实际道路上遇到这些情况。

Nvidia 面向物理世界应用的战略性 AI 生态系统解析

Cosmos-Transfer1 只是 Nvidia 更广泛的 Cosmos 平台的一个组成部分，该平台是一套专门为物理 AI 开发设计的世界基础模型 (WFMs)。该平台包括用于通用世界生成的 Cosmos-Predict1 和用于物理常识推理的 Cosmos-Reason1。

"Nvidia Cosmos 是一个以开发者为先的世界基础模型平台，旨在帮助物理 AI 开发者更好更快地构建他们的物理 AI 系统，"该公司在其 GitHub 仓库中表示。该平台包括在 Nvidia 开放模型许可下的预训练模型和 Apache 2 许可下的训练脚本。

这使 Nvidia 能够在加速自主系统开发的 AI 工具市场中占据优势，尤其是在制造业到运输业等行业大量投资机器人和自动驾驶技术的情况下。

实时生成：Nvidia 的硬件如何驱动下一代 AI 模拟

Nvidia 还演示了 Cosmos-Transfer1 在其最新硬件上的实时运行。"我们进一步展示了一个推理扩展策略，在 Nvidia GB200 NVL72 机架上实现实时世界生成，"研究人员指出。

团队在从 1 个 GPU 扩展到 64 个 GPU 时实现了约 40 倍的加速，能够在仅 4.2 秒内生成 5 秒的高质量视频 - 实现了有效的实时处理能力。

这种规模化性能解决了另一个关键的行业挑战：模拟速度。快速、真实的模拟能够实现更快的测试和迭代周期，加速自主系统的开发。

开源创新：为全球开发者民主化高级 AI

Nvidia 决定在 GitHub 上发布 Cosmos-Transfer1 模型及其底层代码，消除了全球开发者的障碍。这次公开发布使较小的团队和独立研究人员能够访问此前需要大量资源才能获得的模拟技术。

这一举措符合 Nvidia 围绕其硬件和软件产品构建强大开发者社区的更广泛战略。通过将这些工具交到更多人手中，公司扩大了其影响力，同时可能加速物理 AI 开发的进程。

对于机器人和自动驾驶汽车工程师来说，这些新可用的工具可能通过更高效的训练环境缩短开发周期。实际影响可能首先体现在测试阶段，开发者可以在实际部署前让系统接触更广泛的场景。

虽然开源使技术变得可用，但要有效使用它仍然需要专业知识和计算资源 - 这提醒我们在 AI 开发中，代码本身只是故事的开始。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Nvidia 推出 Cosmos-Transfer1，让机器人训练超乎寻常地真实 - 这将改变一切

来源：VentureBeat

2025

03/20

09:51

分享

点赞

Qorvo推出宽带高效功率放大器QPA9510，助力简化Sub-1GHz射频设计

关于现代化，我们真正需要讨论的是什么？

微软质量控制问题愈演愈烈

开源 AI 及其在当今世界中的重要作用

OpenAI Sora与谷歌Veo 3 AI视频生成对比测试结果出炉

iPhone卫星连接技术五大升级方向曝光

AI助力阿尔茨海默病治疗突破

测试智算性能！新一期国际排行榜AIPerf发布

ChinaSC 2025：产学研聚力，解锁智能算力经济新未来！

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程 斩获多奖！联想多元算力布局引领产业新征程

Gartner：趋势不是终点，而是通往下一个时代的坐标

异构CPU时代来临：多架构协同成为计算新趋势

应对 AI 驱动的关键基础设施攻击:韧性是关键

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程斩获多奖！联想多元算力布局引领产业新征程