全球AI领导者NVIDIA(英伟达)在2025年CES展会上,开源了全新世界大模型NVIDIA Cosmos。
Cosmos能从数据整合、训练再到定制各个开发阶段的,大规模模拟、构建物理世界的基础模型,同时支持自定义微调。
例如,你想开发一个实体仓储机器人,但没有真实大型仓储环境为机器人提供货物搬运、拣选、分拣等训练环境,通过Cosmos就能轻松创建一个模拟的物理仓储环境,来训练、观察、优化机器人各种动作。
在自动驾驶领域,想观察汽车在大雨、暴雪、地震等超恶劣环境中的表现同样很难,而Cosmos可以轻松模拟这些环境,帮助开发者深度优化智能汽车的开发流程。
NVIDIA创始人兼首席执行官黄仁勋在演讲中表示,“机器人的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车的发展至关重要,但并非所有开发者都具备训练自己模型的专业知识和资源。
所以,NVIDIA开发了Cosmos,让物理AI大众化,帮助每个开发者都能轻松开发通用实体机器人技术。”
开源地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
API:https://build.nvidia.com/explore/simulation
Cosmos架构介绍
Cosmos使用了基于Transformer的自回归和扩散双架构模型:自回归模型专为视频生成设计,基于输入文本和过去的视频帧预测下一个token。使用了Transformer解码器架并进行了关键修改用于世界模型开发。
3D RoPE(旋转位置嵌入)分别对空间和时间维度进行编码,确保精确的视频序列表示。交叉注意力层使文本输入为世界生成提供了更好的控制。QK归一化增强了训练稳定性。该模型的预训练是逐步进行的,从单个输入帧预测多达17个未来帧开始,然后扩展到34帧,最终达到121帧(或50000个token)。
扩散模型因其能够解构训练数据并根据用户输入重建它,从而产生高质量、逼真的输出而广受欢迎,用于生成图像、视频和音频。
Cosmos的扩散模型分为正向扩散和反向扩散两个阶段:在正向扩散过程中,训练数据通过逐步添加高斯噪声而逐渐被破坏,有效地将其转化为纯噪声。
在反向扩散过程中,模型学习逐步逆转这种噪声,通过去噪被破坏的输入来恢复原始数据。一旦训练完成,扩散模型通过采样随机高斯噪声并将其通过学习到的去噪过程来生成新数据。
此外,Cosmos扩散模型还有一些关键更新,专门针对物理AI开发。3D Patchification将视频处理成较小的块,简化了时空序列表示。混合位置嵌入处理空间和时间维度,支持具有不同分辨率和帧率的视频。交叉注意力层结合文本输入,使视频生成能够根据描述更好地控制。LoRA的自适应层归一化将模型大小减少了36%,在更少的资源下保持了高性能。
训练数据方面,Cosmos使用了9000万亿token的数据,包括自动驾驶、机器人、合成环境和其他相关领域的2000万小时数据。能够创建非常逼真的合成视频环境和互动,这为训练复杂机器人、自动化驾驶提供重要基础。
Cosmos共有Nano、Super和Ultra三种型号:Nano针对实时、低延迟推理和边缘部署进行了优化;Super作为性能基线模型设计;Ultra专注于最大质量和保真度,是蒸馏定制模型的理想选择。
为了提升Cosmos的安全性,提供了预防护和后防护两种安全机制。预防护主要基于文本提示的安全措施,使用两层:关键词屏蔽,一个屏蔽列表检查器扫描提示中的不安全关键词,使用词形还原来检测变体,并屏蔽非英语术语或拼写错误。Aegis安全防护,NVIDIA微调的Aegis AI内容安全模型检测并屏蔽语义上不安全的提示,包括暴力、骚扰和粗俗等类别。
后防护阶段通过以下方式确保生成视频的安全性:视频内容安全分类器,一个多类分类器评估每个视频帧的安全性。如果任何帧被标记为不安全,则整个视频将被拒绝。面部模糊过滤器,使用RetinaFace模型模糊生成视频中的所有人脸,以保护隐私并减少基于年龄、性别或种族的偏见。
Cosmos实际应用案例
根据NVIDIA在官网的展示,目前很多世界知名的实体机器人、智能汽车开发商已经在使用Cosmos加速物理开发效率。
著名人形机器人开发公司1X使用 Cosmos,推出了1X世界模型挑战数据集。国内的小鹏汽车将使用Cosmos 加速其人形机器人的开发。Hillbot 和 Skild AI 正在使用 Cosmos 快速推进其通用机器人的开发流程。
Waabi,一家从自动驾驶汽车开始开创物理世界生成式AI的公司,正在评估 Cosmos 在自动驾驶汽车软件开发和模拟的数据整理方面的应用。
Wayve在开发自动驾驶的AI基础模型,正在评估Cosmos作为搜索用于安全和验证的边缘和角落驾驶场景的工具。自动驾驶工具链提供商Foretellix将使用Cosmos,结合NVIDIA Omniverse Sensor RTX API,以规模评估和生成高保真测试场景和训练数据。
全球网约车巨头Uber正在与NVIDIA合作加速自动驾驶移动性。Uber的丰富驾驶数据集,结合Cosmos平台和NVIDIA DGX Cloud(TM)的功能,可以帮助自动驾驶合作伙伴更高效地构建更强大的AI模型。
Uber首席执行官Dara Khosrowshahi表示,“生成式AI将推动移动性的未来,这需要丰富的数据和非常强大的计算能力。通过与NVIDIA合作,我们有信心可以帮助加速安全和可扩展的自动驾驶解决方案。
好文章,需要你的鼓励
微软计划在本财年投资 800 亿美元建设数据中心,以支持人工智能发展。这一巨额投资凸显了 AI 基础设施建设的资本密集性。微软将在美国境内投入超过一半资金,并呼吁政府制定平衡安全与创新的政策,以保持美国在 AI 领域的领先地位。
根据 GSMA 的研究,卫星通信市场近三个月发展迅速。各轨道卫星容量增加,商业服务可用性提高,企业采用率随之上升。研究显示,99 家全球通信运营商提供卫星服务,其中 19 家已上线,80 家正在规划或测试中。市场呈现三大趋势:运营商为 2025 年发射做准备、Apple 加大对 Globalstar 投资,以及卫星在企业规划中的重要性提升。
据报道,以太坊层 2 区块链开发商 Movement Labs 正在进行 1 亿美元 B 轮融资,估值约 30 亿美元。该公司基于 Facebook 的 Move 语言虚拟机开发了一个以太坊层 2 解决方案,旨在提高交易速度、降低成本,并增强智能合约的安全性。这轮融资反映了市场对高效区块链基础设施的需求和信心。
微软发布了名为 Phi-4 的小型语言模型的开源代码。该模型具有 140 亿参数,能够生成文本和解决数学问题。经过内部评估,Phi-4 在某些基准测试中的表现优于参数量是其 5 倍的大型模型。这一举动加入了科技巨头开源小型语言模型的潮流中。