Nvidia 发布了 Cosmos-Transfer1,这是一个创新的 AI 模型,使开发者能够为机器人和自动驾驶汽车训练创建高度真实的模拟环境。该模型现已在 Hugging Face 上发布,解决了物理 AI 开发中一个持续存在的挑战:即弥合模拟训练环境与现实世界应用之间的差距。
"我们推出了 Cosmos-Transfer1,这是一个条件世界生成模型,可以基于多种空间控制输入 (如分割、深度和边缘) 生成世界模拟,"Nvidia 研究人员在随发布一同发表的论文中表示。"这实现了高度可控的世界生成,在包括 Sim2Real 在内的各种世界间转换场景中都有应用。"
与之前的模拟模型不同,Cosmos-Transfer1 引入了一个自适应多模态控制系统,允许开发者在场景的不同部分对不同的视觉输入(如深度信息或物体边界)进行不同程度的权重分配。这一突破使生成环境的控制更加细致,显著提高了其真实性和实用性。
自适应多模态控制如何改变 AI 模拟技术
传统的物理 AI 系统训练方法要么需要收集大量真实世界数据(这是一个耗时且昂贵的过程),要么使用往往缺乏真实世界复杂性和可变性的模拟环境。
Cosmos-Transfer1 通过允许开发者使用多模态输入(如模糊视觉、边缘检测、深度图和分割)来解决这个困境,从而生成照片级真实的模拟,在保持原始场景关键特征的同时添加自然变化。
"在设计中,空间条件方案是自适应且可定制的,"研究人员解释道,"它允许在不同空间位置对不同的条件输入赋予不同的权重。"
这一功能在机器人技术中特别有价值,开发者可能希望对机械臂的外观和运动保持精确控制,同时允许在生成多样化背景环境时有更多创作自由。对于自动驾驶汽车来说,它能够在保持道路布局和交通模式的同时,变换天气条件、照明或城市环境。
可能改变机器人技术和自动驾驶的物理 AI 应用
项目核心贡献者之一的 Ming-Yu Liu 博士解释了这项技术对行业应用的重要性。
"策略模型指导物理 AI 系统的行为,确保系统安全运行并符合其目标,"Liu 和他的同事在论文中指出。"Cosmos-Transfer1 可以后期训练成策略模型以生成动作,节省了手动策略训练的成本、时间和数据需求。"
该技术在机器人模拟测试中已经证明了其价值。当使用 Cosmos-Transfer1 增强模拟机器人数据时,Nvidia 研究人员发现该模型通过"添加更多场景细节、复杂阴影和自然光照"显著提高了照片真实感,同时保持了机器人运动的物理动态特性。
对于自动驾驶汽车开发,该模型使开发者能够"最大化利用现实世界的边缘案例",帮助车辆学习处理罕见但关键的情况,而无需在实际道路上遇到这些情况。
Nvidia 面向物理世界应用的战略性 AI 生态系统解析
Cosmos-Transfer1 只是 Nvidia 更广泛的 Cosmos 平台的一个组成部分,该平台是一套专门为物理 AI 开发设计的世界基础模型 (WFMs)。该平台包括用于通用世界生成的 Cosmos-Predict1 和用于物理常识推理的 Cosmos-Reason1。
"Nvidia Cosmos 是一个以开发者为先的世界基础模型平台,旨在帮助物理 AI 开发者更好更快地构建他们的物理 AI 系统,"该公司在其 GitHub 仓库中表示。该平台包括在 Nvidia 开放模型许可下的预训练模型和 Apache 2 许可下的训练脚本。
这使 Nvidia 能够在加速自主系统开发的 AI 工具市场中占据优势,尤其是在制造业到运输业等行业大量投资机器人和自动驾驶技术的情况下。
实时生成:Nvidia 的硬件如何驱动下一代 AI 模拟
Nvidia 还演示了 Cosmos-Transfer1 在其最新硬件上的实时运行。"我们进一步展示了一个推理扩展策略,在 Nvidia GB200 NVL72 机架上实现实时世界生成,"研究人员指出。
团队在从 1 个 GPU 扩展到 64 个 GPU 时实现了约 40 倍的加速,能够在仅 4.2 秒内生成 5 秒的高质量视频 - 实现了有效的实时处理能力。
这种规模化性能解决了另一个关键的行业挑战:模拟速度。快速、真实的模拟能够实现更快的测试和迭代周期,加速自主系统的开发。
开源创新:为全球开发者民主化高级 AI
Nvidia 决定在 GitHub 上发布 Cosmos-Transfer1 模型及其底层代码,消除了全球开发者的障碍。这次公开发布使较小的团队和独立研究人员能够访问此前需要大量资源才能获得的模拟技术。
这一举措符合 Nvidia 围绕其硬件和软件产品构建强大开发者社区的更广泛战略。通过将这些工具交到更多人手中,公司扩大了其影响力,同时可能加速物理 AI 开发的进程。
对于机器人和自动驾驶汽车工程师来说,这些新可用的工具可能通过更高效的训练环境缩短开发周期。实际影响可能首先体现在测试阶段,开发者可以在实际部署前让系统接触更广泛的场景。
虽然开源使技术变得可用,但要有效使用它仍然需要专业知识和计算资源 - 这提醒我们在 AI 开发中,代码本身只是故事的开始。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。