英伟达公司今日宣布推出新工具,旨在推进物理人工智能模型的开发,如用于自动驾驶汽车、仓库和人形机器人的模型。
世界基础模型 (WFMs) 通过生成和模拟虚拟世界及其物理交互,帮助工程师和开发人员在各种场景中训练机器人。
在 2025 年 CES 展会上,英伟达宣布推出首个 Cosmos WFMs 系列,用于基于物理的仿真和合成数据生成。除了这些 AI 基础模型外,该公司还提供了分词器、护栏和 AI 模型定制功能,使开发人员能够根据需求微调模型。
英伟达联合创始人兼首席执行官黄仁勋表示:"物理 AI 将彻底改变价值 50 万亿美元的制造和物流行业。所有移动的东西——从汽车和卡车到工厂和仓库——都将由 AI 驱动的机器人实现。"
Cosmos 是一组世界基础模型,经过超过 9 万亿个 token 的训练,这些 token 来自 2000 万小时的真实世界人类交互、环境、工业、机器人和驾驶数据。这使得该模型系列能够提供各种优化的仿真数据,用于实时、低延迟推理,并可提炼为定制模型。
开发人员可以使用 Cosmos 从文本或视频提示生成完整的虚拟世界。这将允许机器人开发人员和工程师生成和增强他们的合成数据,以在真实世界部署之前测试和调试他们的 AI 模型,通过根据自身需求快速生成虚拟环境。
英伟达 Omniverse 和仿真副总裁 Rev Lebaredian 表示:"当前的自动驾驶开发人员需要行驶数百万英里。更耗费资源的是处理、过滤和标记数千 PB 的捕获数据。而且物理测试是危险的。人形机器人开发者的风险很大,因为一个机器人原型可能价值数十万美元。"
最终,工程师和开发人员发现,无论他们收集多少真实世界数据都是不够的。他们仍然需要用额外的合成数据来增强数据,以训练和微调他们的 AI 模型,覆盖边缘案例和可能性,以确保严谨性和安全性。
Cosmos 可以与英伟达 Omniverse 无缝配对,后者是该公司的实时 3D 图形协作和仿真平台,允许艺术家、开发人员和企业使用完全实现的物理学构建工厂、城市和其他空间的真实 3D 模型和场景。通过这个工具,公司可以开发数字孪生,模拟真实世界环境,比将实体机器人投入实际训练营更容易地训练机器人。
开发人员现在可以从 NGC 目录和 Hugging Face 预览首个 Cosmos WFM 模型系列。
Omniverse 扩展物理 AI 生成能力
英伟达的数字孪生仿真和协作平台 Omniverse 新增了四个蓝图,以加速工业和机器人工作流程,包括开发和训练物理 AI 模型。
由 Omniverse Sensor RTX 应用程序接口驱动的 Mega,将帮助机器人和 AI 工程师在大规模部署到真实世界设施之前开发和测试物理 AI 机器人队伍。Mega 通过在虚拟世界中使用跨复杂场景的传感器数据模拟机器人行为,为企业提供数字孪生能力。
在仓库、配送中心和工厂中,自主移动机器人、机器人手臂和人形机器人可以与人一起工作,在过道中移动并相互交互。它提供了一个框架,允许跨虚拟环境的软件定义功能,用于传感器和机器人自主性测试和训练。
供应链解决方案公司 KION 集团和咨询公司埃森哲与英伟达合作,成为首批采用 Mega 来优化零售、消费品包装等领域运营的公司。
由 Omniverse Sensor RTX 驱动的自动驾驶车辆仿真将允许自动驾驶开发人员重放驾驶数据、生成新的基准数据并执行测试,以开发更好的 AI 模型。英伟达还发布了一个用于计算机辅助工程 (CAE) 实时数字孪生的参考工作流程蓝图,该蓝图基于英伟达 CUDA-X 加速、物理 AI 和 Omniverse 库构建,允许实时物理可视化。
英伟达的人形机器人 AI 学习模型 Isaac GR00T 获得了一个蓝图,允许用户戴上 Apple Vision Pro 并演示任务。通过观察和模仿人类演示来获取人形机器人的新技能。收集这些需要大量高质量数据集的捕获。
通过实施 GR00T 蓝图,并通过将捕获模拟为数字孪生来从少量人类演示生成大量合成数据集,可以缓解这项繁琐的任务。
好文章,需要你的鼓励
佐治亚理工学院正引领高等教育机构适应 AI 驱动的未来。学院通过开放 AI 超级计算机、提供跨学科 AI 教育、支持学生开发实际应用等方式,培养具备 AI 技能的全方位人才。这种创新模式不仅提升了学生的就业竞争力,也为产业界输送了能够驾驭 AI 技术的新生力量,推动各行各业的数字化转型。
WEKA 在 SPECstorage Solution 2020 基准测试的五个工作负载场景中全面领先,采用 HPE PCIe Gen 5 硬件实现卓越性能。此次测试涵盖 AI 图像处理、电子设计自动化等多个领域,WEKA 不仅提高了处理速度,还显著降低了延迟,展现了其在存储解决方案领域的领先地位。
网易推出多款新型存储设备,升级 ASA 和 E 系列块存储产品线。新品包括 ASA 全闪存阵列新机型、FAS 混合闪存文件服务器、面向高性能计算的 E 系列 SAN 存储,并扩展了勒索软件检测和恢复保障。这些升级旨在提升性能、扩大容量,并增强数据安全性。
DeepMind 研究人员提出了一种名为 Streaming DiLoCo 的新方法,可以在分布式环境中高效训练大型 AI 模型。该方法通过优化参数同步和通信策略,显著降低了带宽需求,同时保持了模型性能。这一突破有望推动 AI 开发的民主化,使更多机构能够参与大规模模型训练。