英伟达公司今日宣布推出新工具,旨在推进物理人工智能模型的开发,如用于自动驾驶汽车、仓库和人形机器人的模型。
世界基础模型 (WFMs) 通过生成和模拟虚拟世界及其物理交互,帮助工程师和开发人员在各种场景中训练机器人。
在 2025 年 CES 展会上,英伟达宣布推出首个 Cosmos WFMs 系列,用于基于物理的仿真和合成数据生成。除了这些 AI 基础模型外,该公司还提供了分词器、护栏和 AI 模型定制功能,使开发人员能够根据需求微调模型。
英伟达联合创始人兼首席执行官黄仁勋表示:"物理 AI 将彻底改变价值 50 万亿美元的制造和物流行业。所有移动的东西——从汽车和卡车到工厂和仓库——都将由 AI 驱动的机器人实现。"
Cosmos 是一组世界基础模型,经过超过 9 万亿个 token 的训练,这些 token 来自 2000 万小时的真实世界人类交互、环境、工业、机器人和驾驶数据。这使得该模型系列能够提供各种优化的仿真数据,用于实时、低延迟推理,并可提炼为定制模型。
开发人员可以使用 Cosmos 从文本或视频提示生成完整的虚拟世界。这将允许机器人开发人员和工程师生成和增强他们的合成数据,以在真实世界部署之前测试和调试他们的 AI 模型,通过根据自身需求快速生成虚拟环境。
英伟达 Omniverse 和仿真副总裁 Rev Lebaredian 表示:"当前的自动驾驶开发人员需要行驶数百万英里。更耗费资源的是处理、过滤和标记数千 PB 的捕获数据。而且物理测试是危险的。人形机器人开发者的风险很大,因为一个机器人原型可能价值数十万美元。"
最终,工程师和开发人员发现,无论他们收集多少真实世界数据都是不够的。他们仍然需要用额外的合成数据来增强数据,以训练和微调他们的 AI 模型,覆盖边缘案例和可能性,以确保严谨性和安全性。
Cosmos 可以与英伟达 Omniverse 无缝配对,后者是该公司的实时 3D 图形协作和仿真平台,允许艺术家、开发人员和企业使用完全实现的物理学构建工厂、城市和其他空间的真实 3D 模型和场景。通过这个工具,公司可以开发数字孪生,模拟真实世界环境,比将实体机器人投入实际训练营更容易地训练机器人。
开发人员现在可以从 NGC 目录和 Hugging Face 预览首个 Cosmos WFM 模型系列。
Omniverse 扩展物理 AI 生成能力
英伟达的数字孪生仿真和协作平台 Omniverse 新增了四个蓝图,以加速工业和机器人工作流程,包括开发和训练物理 AI 模型。
由 Omniverse Sensor RTX 应用程序接口驱动的 Mega,将帮助机器人和 AI 工程师在大规模部署到真实世界设施之前开发和测试物理 AI 机器人队伍。Mega 通过在虚拟世界中使用跨复杂场景的传感器数据模拟机器人行为,为企业提供数字孪生能力。
在仓库、配送中心和工厂中,自主移动机器人、机器人手臂和人形机器人可以与人一起工作,在过道中移动并相互交互。它提供了一个框架,允许跨虚拟环境的软件定义功能,用于传感器和机器人自主性测试和训练。
供应链解决方案公司 KION 集团和咨询公司埃森哲与英伟达合作,成为首批采用 Mega 来优化零售、消费品包装等领域运营的公司。
由 Omniverse Sensor RTX 驱动的自动驾驶车辆仿真将允许自动驾驶开发人员重放驾驶数据、生成新的基准数据并执行测试,以开发更好的 AI 模型。英伟达还发布了一个用于计算机辅助工程 (CAE) 实时数字孪生的参考工作流程蓝图,该蓝图基于英伟达 CUDA-X 加速、物理 AI 和 Omniverse 库构建,允许实时物理可视化。
英伟达的人形机器人 AI 学习模型 Isaac GR00T 获得了一个蓝图,允许用户戴上 Apple Vision Pro 并演示任务。通过观察和模仿人类演示来获取人形机器人的新技能。收集这些需要大量高质量数据集的捕获。
通过实施 GR00T 蓝图,并通过将捕获模拟为数字孪生来从少量人类演示生成大量合成数据集,可以缓解这项繁琐的任务。
好文章,需要你的鼓励
在技术快速发展的时代,保护关键系统越来越依赖AI、自动化和行为分析。数据显示,2024年95%的数据泄露源于人为错误,64%的网络事件由员工失误造成。虽然先进的网络防御技术不断发展,但人类判断仍是最薄弱环节。网络韧性不仅是技术挑战,更是人员和战略需求。建立真正的韧性需要机器精确性与人类判断力的结合,将信任视为战略基础设施的关键要素,并将网络韧性提升为国家安全的核心组成部分。
上海AI实验室提出InternVLA-M1框架,通过空间引导的视觉-语言-动作训练,让机器人先学会"在哪里行动"再学"如何行动"。系统采用双阶段训练策略,构建了300万个多模态样本数据集。在多项测试中表现优异,相比基线方法提升10-20%成功率,在真实世界未见物体任务中提升20.6%,为通用智能机器人发展提供了新思路。
自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。
UC圣塔芭芭拉分校研究团队开发出直接多词解码技术(DMTD),通过重用大语言模型的后期层实现一次性生成多个词汇。该技术无需添加额外参数,仅通过重新组织内部处理流程就实现了2倍速度提升,同时保持96%以上的准确性。实验证明技术在大型模型上效果更佳,为AI交互效率提升开辟了新路径。