机器人ChatGPT时刻！英伟达开源世界大模型，完美模拟物理世界！

Cosmos能从数据整合、训练再到定制各个开发阶段的，大规模模拟、构建物理世界的基础模型，同时支持自定义微调。

全球AI领导者NVIDIA（英伟达）在2025年CES展会上，开源了全新世界大模型NVIDIA Cosmos。

Cosmos能从数据整合、训练再到定制各个开发阶段的，大规模模拟、构建物理世界的基础模型，同时支持自定义微调。

例如，你想开发一个实体仓储机器人，但没有真实大型仓储环境为机器人提供货物搬运、拣选、分拣等训练环境，通过Cosmos就能轻松创建一个模拟的物理仓储环境，来训练、观察、优化机器人各种动作。

在自动驾驶领域，想观察汽车在大雨、暴雪、地震等超恶劣环境中的表现同样很难，而Cosmos可以轻松模拟这些环境，帮助开发者深度优化智能汽车的开发流程。

机器人ChatGPT时刻！英伟达开源世界大模型，完美模拟物理世界！

NVIDIA创始人兼首席执行官黄仁勋在演讲中表示，“机器人的ChatGPT时刻即将到来。与大语言模型一样，世界基础模型对于推动机器人和自动驾驶汽车的发展至关重要，但并非所有开发者都具备训练自己模型的专业知识和资源。

所以，NVIDIA开发了Cosmos，让物理AI大众化，帮助每个开发者都能轻松开发通用实体机器人技术。”

开源地址：https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

API：https://build.nvidia.com/explore/simulation

Cosmos架构介绍

Cosmos使用了基于Transformer的自回归和扩散双架构模型：自回归模型专为视频生成设计，基于输入文本和过去的视频帧预测下一个token。使用了Transformer解码器架并进行了关键修改用于世界模型开发。

3D RoPE（旋转位置嵌入）分别对空间和时间维度进行编码，确保精确的视频序列表示。交叉注意力层使文本输入为世界生成提供了更好的控制。QK归一化增强了训练稳定性。该模型的预训练是逐步进行的，从单个输入帧预测多达17个未来帧开始，然后扩展到34帧，最终达到121帧（或50000个token）。

机器人ChatGPT时刻！英伟达开源世界大模型，完美模拟物理世界！

扩散模型因其能够解构训练数据并根据用户输入重建它，从而产生高质量、逼真的输出而广受欢迎，用于生成图像、视频和音频。

Cosmos的扩散模型分为正向扩散和反向扩散两个阶段：在正向扩散过程中，训练数据通过逐步添加高斯噪声而逐渐被破坏，有效地将其转化为纯噪声。

在反向扩散过程中，模型学习逐步逆转这种噪声，通过去噪被破坏的输入来恢复原始数据。一旦训练完成，扩散模型通过采样随机高斯噪声并将其通过学习到的去噪过程来生成新数据。

此外，Cosmos扩散模型还有一些关键更新，专门针对物理AI开发。3D Patchification将视频处理成较小的块，简化了时空序列表示。混合位置嵌入处理空间和时间维度，支持具有不同分辨率和帧率的视频。交叉注意力层结合文本输入，使视频生成能够根据描述更好地控制。LoRA的自适应层归一化将模型大小减少了36%，在更少的资源下保持了高性能。

机器人ChatGPT时刻！英伟达开源世界大模型，完美模拟物理世界！

训练数据方面，Cosmos使用了9000万亿token的数据，包括自动驾驶、机器人、合成环境和其他相关领域的2000万小时数据。能够创建非常逼真的合成视频环境和互动，这为训练复杂机器人、自动化驾驶提供重要基础。

Cosmos共有Nano、Super和Ultra三种型号：Nano针对实时、低延迟推理和边缘部署进行了优化；Super作为性能基线模型设计；Ultra专注于最大质量和保真度，是蒸馏定制模型的理想选择。

为了提升Cosmos的安全性，提供了预防护和后防护两种安全机制。预防护主要基于文本提示的安全措施，使用两层：关键词屏蔽，一个屏蔽列表检查器扫描提示中的不安全关键词，使用词形还原来检测变体，并屏蔽非英语术语或拼写错误。Aegis安全防护，NVIDIA微调的Aegis AI内容安全模型检测并屏蔽语义上不安全的提示，包括暴力、骚扰和粗俗等类别。

机器人ChatGPT时刻！英伟达开源世界大模型，完美模拟物理世界！