随着AI模型持续获得关注,开发能够连接设备屏幕与现实世界的硬件愈发重要。因此,物理AI成为CES展会的新兴主题,英伟达发布了多款模型来加速机器人开发。
"机器人领域的ChatGPT时刻已经到来。物理AI的突破——理解现实世界、推理和规划行动的模型——正在解锁全新的应用领域,"英伟达创始人兼CEO黄仁勋表示。
为了推动这一势头,英伟达在周一拉斯维加斯主题演讲中发布了全新的开源英伟达Cosmos和GR00T模型。该公司表示,这些模型旨在让开发者减少预训练的时间和资源投入,将更多精力用于构建下一代机器人。
具体而言,此次发布包括英伟达Cosmos Transfer 2.5和英伟达Cosmos Predict 2.5,这是开源且完全可定制的世界模型,能够理解现实世界,包括其物理和空间特性。这对创建合成数据和仿真非常有用,能够模拟现实生活场景来评估机器人性能,这在物理AI开发中十分必要,因为测试自动驾驶汽车等物理AI应用在现实中往往风险太高。
英伟达Cosmos Reason 2是一个开源推理视觉语言模型(VLM),使智能机器能够"像人类一样在物理世界中看见、理解和行动"。此外,使用英伟达Cosmos Reason 2,物理AI可以像人类一样做出决策,运用推理、先验知识、物理理解等能力。
最后,英伟达Isaac GR00T N1.6是专为人形机器人设计的开源推理视觉语言动作(VLA)模型,实现全身控制,并利用英伟达Cosmos Reason获得上述额外优势。所有新模型都可在Hugging Face平台获取。
基准测试和仿真对确保自主系统的安全开发至关重要,但由于创建仿真的难度,它们往往是机器人技术中最具挑战性的组成部分。为帮助弥合这一差距,英伟达在GitHub上发布了新的开源框架,包括英伟达Isaac Lab-Arena和英伟达OSMO。
英伟达Isaac Lab-Arena是一个专为大规模机器人策略评估和仿真基准测试设计的开源框架。它与具身AI基础设施公司Lightwheel密切合作开发,连接到行业领先的基准测试。
英伟达Osmo旨在帮助开发者完成机器人训练工作流程。特别是,它可以让开发者从一个中央指挥中心在不同计算环境中运行工作流程,如模型训练,从而加速整个过程。
英伟达表示正与Hugging Face合作,将开源Isaac和GR00T技术集成到LeRobot开源机器人框架中,使各经验层次的开发者更容易在机器人开发中使用英伟达技术。GR00T N1.6和Isaac Lab-Arena现已在LeRobot库中提供。
此次合作的另一部分是让Hugging Face的开源Reachy 2人形机器人与英伟达Jetson Thor硬件无缝协作。同样,Hugging Face的开源Reachy Mini桌面机器人与英伟达DGX Spark完全互操作。
包括波士顿动力、Richtech、Humanoid、LG电子和Neura Robotics在内的领先机器人公司都发布了使用英伟达技术构建的新型机器人和自主机器,集成了该公司的Jetson Thor机器人平台。
这些机器人协助完成不同任务。例如,Richtech Robotics推出了用于工业环境的人形机器人Dex,而LG电子发布了用于室内家务的新型家用机器人。CES发布的内容还包括新的英伟达Blackwell驱动的Jetson T4000模块,该公司声称其性能是上一代的四倍。
Q&A
Q1:英伟达发布的Cosmos模型有什么特点?
A:英伟达Cosmos包括Transfer 2.5和Predict 2.5,是开源且完全可定制的世界模型,能够理解现实世界的物理和空间特性。这些模型主要用于创建合成数据和仿真,模拟现实生活场景来评估机器人性能,因为在现实中测试自动驾驶汽车等物理AI应用往往风险太高。
Q2:GR00T N1.6模型的主要用途是什么?
A:英伟达Isaac GR00T N1.6是专门为人形机器人设计的开源推理视觉语言动作模型,能够实现全身控制功能。该模型利用英伟达Cosmos Reason技术,使人形机器人能够像人类一样进行推理、运用先验知识和理解物理世界,从而做出智能决策。
Q3:哪些知名公司在使用英伟达的机器人技术?
A:包括波士顿动力、Richtech、Humanoid、LG电子和Neura Robotics等领先机器人公司都发布了使用英伟达技术的新型机器人。例如,Richtech推出了工业环境用的人形机器人Dex,LG电子发布了室内家务机器人,这些都集成了英伟达的Jetson Thor机器人平台。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。