全球AI领导者NVIDIA(英伟达)在2025年CES展会上,开源了全新世界大模型NVIDIA Cosmos。
Cosmos能从数据整合、训练再到定制各个开发阶段的,大规模模拟、构建物理世界的基础模型,同时支持自定义微调。
例如,你想开发一个实体仓储机器人,但没有真实大型仓储环境为机器人提供货物搬运、拣选、分拣等训练环境,通过Cosmos就能轻松创建一个模拟的物理仓储环境,来训练、观察、优化机器人各种动作。
在自动驾驶领域,想观察汽车在大雨、暴雪、地震等超恶劣环境中的表现同样很难,而Cosmos可以轻松模拟这些环境,帮助开发者深度优化智能汽车的开发流程。

NVIDIA创始人兼首席执行官黄仁勋在演讲中表示,“机器人的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车的发展至关重要,但并非所有开发者都具备训练自己模型的专业知识和资源。
所以,NVIDIA开发了Cosmos,让物理AI大众化,帮助每个开发者都能轻松开发通用实体机器人技术。”
开源地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
API:https://build.nvidia.com/explore/simulation
Cosmos架构介绍
Cosmos使用了基于Transformer的自回归和扩散双架构模型:自回归模型专为视频生成设计,基于输入文本和过去的视频帧预测下一个token。使用了Transformer解码器架并进行了关键修改用于世界模型开发。
3D RoPE(旋转位置嵌入)分别对空间和时间维度进行编码,确保精确的视频序列表示。交叉注意力层使文本输入为世界生成提供了更好的控制。QK归一化增强了训练稳定性。该模型的预训练是逐步进行的,从单个输入帧预测多达17个未来帧开始,然后扩展到34帧,最终达到121帧(或50000个token)。

扩散模型因其能够解构训练数据并根据用户输入重建它,从而产生高质量、逼真的输出而广受欢迎,用于生成图像、视频和音频。
Cosmos的扩散模型分为正向扩散和反向扩散两个阶段:在正向扩散过程中,训练数据通过逐步添加高斯噪声而逐渐被破坏,有效地将其转化为纯噪声。
在反向扩散过程中,模型学习逐步逆转这种噪声,通过去噪被破坏的输入来恢复原始数据。一旦训练完成,扩散模型通过采样随机高斯噪声并将其通过学习到的去噪过程来生成新数据。
此外,Cosmos扩散模型还有一些关键更新,专门针对物理AI开发。3D Patchification将视频处理成较小的块,简化了时空序列表示。混合位置嵌入处理空间和时间维度,支持具有不同分辨率和帧率的视频。交叉注意力层结合文本输入,使视频生成能够根据描述更好地控制。LoRA的自适应层归一化将模型大小减少了36%,在更少的资源下保持了高性能。

训练数据方面,Cosmos使用了9000万亿token的数据,包括自动驾驶、机器人、合成环境和其他相关领域的2000万小时数据。能够创建非常逼真的合成视频环境和互动,这为训练复杂机器人、自动化驾驶提供重要基础。
Cosmos共有Nano、Super和Ultra三种型号:Nano针对实时、低延迟推理和边缘部署进行了优化;Super作为性能基线模型设计;Ultra专注于最大质量和保真度,是蒸馏定制模型的理想选择。
为了提升Cosmos的安全性,提供了预防护和后防护两种安全机制。预防护主要基于文本提示的安全措施,使用两层:关键词屏蔽,一个屏蔽列表检查器扫描提示中的不安全关键词,使用词形还原来检测变体,并屏蔽非英语术语或拼写错误。Aegis安全防护,NVIDIA微调的Aegis AI内容安全模型检测并屏蔽语义上不安全的提示,包括暴力、骚扰和粗俗等类别。

后防护阶段通过以下方式确保生成视频的安全性:视频内容安全分类器,一个多类分类器评估每个视频帧的安全性。如果任何帧被标记为不安全,则整个视频将被拒绝。面部模糊过滤器,使用RetinaFace模型模糊生成视频中的所有人脸,以保护隐私并减少基于年龄、性别或种族的偏见。
Cosmos实际应用案例
根据NVIDIA在官网的展示,目前很多世界知名的实体机器人、智能汽车开发商已经在使用Cosmos加速物理开发效率。
著名人形机器人开发公司1X使用 Cosmos,推出了1X世界模型挑战数据集。国内的小鹏汽车将使用Cosmos 加速其人形机器人的开发。Hillbot 和 Skild AI 正在使用 Cosmos 快速推进其通用机器人的开发流程。
Waabi,一家从自动驾驶汽车开始开创物理世界生成式AI的公司,正在评估 Cosmos 在自动驾驶汽车软件开发和模拟的数据整理方面的应用。

Wayve在开发自动驾驶的AI基础模型,正在评估Cosmos作为搜索用于安全和验证的边缘和角落驾驶场景的工具。自动驾驶工具链提供商Foretellix将使用Cosmos,结合NVIDIA Omniverse Sensor RTX API,以规模评估和生成高保真测试场景和训练数据。
全球网约车巨头Uber正在与NVIDIA合作加速自动驾驶移动性。Uber的丰富驾驶数据集,结合Cosmos平台和NVIDIA DGX Cloud(TM)的功能,可以帮助自动驾驶合作伙伴更高效地构建更强大的AI模型。
Uber首席执行官Dara Khosrowshahi表示,“生成式AI将推动移动性的未来,这需要丰富的数据和非常强大的计算能力。通过与NVIDIA合作,我们有信心可以帮助加速安全和可扩展的自动驾驶解决方案。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
哈佛、MIT联合研究揭示人类语言理解的神经机制,发现大脑通过"信息出口"将语言从核心系统传递至专业脑区实现深度理解。研究提出浅层与深层理解的区别,为人工智能发展提供重要启示,表明真正智能需要多系统协作而非单一优化。该发现可能改变我们对语言认知的理解。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
腾讯混元等团队开发出革命性的AI视频生成自我评判系统PAVRM和训练方法PRFL,让AI能在创作过程中实时评估和改进视频质量,无需等到完成才反馈。该技术使视频动态表现提升56%,人体结构准确性提升21.5%,训练效率提升1.4倍,为AI视频生成质量带来质的飞跃。