英伟达公司今日宣布推出新工具,旨在推进物理人工智能模型的开发,如用于自动驾驶汽车、仓库和人形机器人的模型。
世界基础模型 (WFMs) 通过生成和模拟虚拟世界及其物理交互,帮助工程师和开发人员在各种场景中训练机器人。
在 2025 年 CES 展会上,英伟达宣布推出首个 Cosmos WFMs 系列,用于基于物理的仿真和合成数据生成。除了这些 AI 基础模型外,该公司还提供了分词器、护栏和 AI 模型定制功能,使开发人员能够根据需求微调模型。
英伟达联合创始人兼首席执行官黄仁勋表示:"物理 AI 将彻底改变价值 50 万亿美元的制造和物流行业。所有移动的东西——从汽车和卡车到工厂和仓库——都将由 AI 驱动的机器人实现。"
Cosmos 是一组世界基础模型,经过超过 9 万亿个 token 的训练,这些 token 来自 2000 万小时的真实世界人类交互、环境、工业、机器人和驾驶数据。这使得该模型系列能够提供各种优化的仿真数据,用于实时、低延迟推理,并可提炼为定制模型。
开发人员可以使用 Cosmos 从文本或视频提示生成完整的虚拟世界。这将允许机器人开发人员和工程师生成和增强他们的合成数据,以在真实世界部署之前测试和调试他们的 AI 模型,通过根据自身需求快速生成虚拟环境。
英伟达 Omniverse 和仿真副总裁 Rev Lebaredian 表示:"当前的自动驾驶开发人员需要行驶数百万英里。更耗费资源的是处理、过滤和标记数千 PB 的捕获数据。而且物理测试是危险的。人形机器人开发者的风险很大,因为一个机器人原型可能价值数十万美元。"
最终,工程师和开发人员发现,无论他们收集多少真实世界数据都是不够的。他们仍然需要用额外的合成数据来增强数据,以训练和微调他们的 AI 模型,覆盖边缘案例和可能性,以确保严谨性和安全性。
Cosmos 可以与英伟达 Omniverse 无缝配对,后者是该公司的实时 3D 图形协作和仿真平台,允许艺术家、开发人员和企业使用完全实现的物理学构建工厂、城市和其他空间的真实 3D 模型和场景。通过这个工具,公司可以开发数字孪生,模拟真实世界环境,比将实体机器人投入实际训练营更容易地训练机器人。
开发人员现在可以从 NGC 目录和 Hugging Face 预览首个 Cosmos WFM 模型系列。
Omniverse 扩展物理 AI 生成能力
英伟达的数字孪生仿真和协作平台 Omniverse 新增了四个蓝图,以加速工业和机器人工作流程,包括开发和训练物理 AI 模型。
由 Omniverse Sensor RTX 应用程序接口驱动的 Mega,将帮助机器人和 AI 工程师在大规模部署到真实世界设施之前开发和测试物理 AI 机器人队伍。Mega 通过在虚拟世界中使用跨复杂场景的传感器数据模拟机器人行为,为企业提供数字孪生能力。
在仓库、配送中心和工厂中,自主移动机器人、机器人手臂和人形机器人可以与人一起工作,在过道中移动并相互交互。它提供了一个框架,允许跨虚拟环境的软件定义功能,用于传感器和机器人自主性测试和训练。
供应链解决方案公司 KION 集团和咨询公司埃森哲与英伟达合作,成为首批采用 Mega 来优化零售、消费品包装等领域运营的公司。
由 Omniverse Sensor RTX 驱动的自动驾驶车辆仿真将允许自动驾驶开发人员重放驾驶数据、生成新的基准数据并执行测试,以开发更好的 AI 模型。英伟达还发布了一个用于计算机辅助工程 (CAE) 实时数字孪生的参考工作流程蓝图,该蓝图基于英伟达 CUDA-X 加速、物理 AI 和 Omniverse 库构建,允许实时物理可视化。
英伟达的人形机器人 AI 学习模型 Isaac GR00T 获得了一个蓝图,允许用户戴上 Apple Vision Pro 并演示任务。通过观察和模仿人类演示来获取人形机器人的新技能。收集这些需要大量高质量数据集的捕获。
通过实施 GR00T 蓝图,并通过将捕获模拟为数字孪生来从少量人类演示生成大量合成数据集,可以缓解这项繁琐的任务。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。