英伟达公司今日宣布推出新工具,旨在推进物理人工智能模型的开发,如用于自动驾驶汽车、仓库和人形机器人的模型。
世界基础模型 (WFMs) 通过生成和模拟虚拟世界及其物理交互,帮助工程师和开发人员在各种场景中训练机器人。
在 2025 年 CES 展会上,英伟达宣布推出首个 Cosmos WFMs 系列,用于基于物理的仿真和合成数据生成。除了这些 AI 基础模型外,该公司还提供了分词器、护栏和 AI 模型定制功能,使开发人员能够根据需求微调模型。
英伟达联合创始人兼首席执行官黄仁勋表示:"物理 AI 将彻底改变价值 50 万亿美元的制造和物流行业。所有移动的东西——从汽车和卡车到工厂和仓库——都将由 AI 驱动的机器人实现。"
Cosmos 是一组世界基础模型,经过超过 9 万亿个 token 的训练,这些 token 来自 2000 万小时的真实世界人类交互、环境、工业、机器人和驾驶数据。这使得该模型系列能够提供各种优化的仿真数据,用于实时、低延迟推理,并可提炼为定制模型。
开发人员可以使用 Cosmos 从文本或视频提示生成完整的虚拟世界。这将允许机器人开发人员和工程师生成和增强他们的合成数据,以在真实世界部署之前测试和调试他们的 AI 模型,通过根据自身需求快速生成虚拟环境。
英伟达 Omniverse 和仿真副总裁 Rev Lebaredian 表示:"当前的自动驾驶开发人员需要行驶数百万英里。更耗费资源的是处理、过滤和标记数千 PB 的捕获数据。而且物理测试是危险的。人形机器人开发者的风险很大,因为一个机器人原型可能价值数十万美元。"
最终,工程师和开发人员发现,无论他们收集多少真实世界数据都是不够的。他们仍然需要用额外的合成数据来增强数据,以训练和微调他们的 AI 模型,覆盖边缘案例和可能性,以确保严谨性和安全性。
Cosmos 可以与英伟达 Omniverse 无缝配对,后者是该公司的实时 3D 图形协作和仿真平台,允许艺术家、开发人员和企业使用完全实现的物理学构建工厂、城市和其他空间的真实 3D 模型和场景。通过这个工具,公司可以开发数字孪生,模拟真实世界环境,比将实体机器人投入实际训练营更容易地训练机器人。
开发人员现在可以从 NGC 目录和 Hugging Face 预览首个 Cosmos WFM 模型系列。
Omniverse 扩展物理 AI 生成能力
英伟达的数字孪生仿真和协作平台 Omniverse 新增了四个蓝图,以加速工业和机器人工作流程,包括开发和训练物理 AI 模型。
由 Omniverse Sensor RTX 应用程序接口驱动的 Mega,将帮助机器人和 AI 工程师在大规模部署到真实世界设施之前开发和测试物理 AI 机器人队伍。Mega 通过在虚拟世界中使用跨复杂场景的传感器数据模拟机器人行为,为企业提供数字孪生能力。
在仓库、配送中心和工厂中,自主移动机器人、机器人手臂和人形机器人可以与人一起工作,在过道中移动并相互交互。它提供了一个框架,允许跨虚拟环境的软件定义功能,用于传感器和机器人自主性测试和训练。
供应链解决方案公司 KION 集团和咨询公司埃森哲与英伟达合作,成为首批采用 Mega 来优化零售、消费品包装等领域运营的公司。
由 Omniverse Sensor RTX 驱动的自动驾驶车辆仿真将允许自动驾驶开发人员重放驾驶数据、生成新的基准数据并执行测试,以开发更好的 AI 模型。英伟达还发布了一个用于计算机辅助工程 (CAE) 实时数字孪生的参考工作流程蓝图,该蓝图基于英伟达 CUDA-X 加速、物理 AI 和 Omniverse 库构建,允许实时物理可视化。
英伟达的人形机器人 AI 学习模型 Isaac GR00T 获得了一个蓝图,允许用户戴上 Apple Vision Pro 并演示任务。通过观察和模仿人类演示来获取人形机器人的新技能。收集这些需要大量高质量数据集的捕获。
通过实施 GR00T 蓝图,并通过将捕获模拟为数字孪生来从少量人类演示生成大量合成数据集,可以缓解这项繁琐的任务。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。