现实世界始终处于运动之中。为了实现自主运行,物理AI系统——包括机器人、自动驾驶汽车和智能空间——不仅需要理解它们所看到的内容以及导致这些现象发生的原因,还需要预测接下来可能发生什么。
在仓库中,机器人可能会遇到从未见过的物体配置。在道路上,自动驾驶汽车可能需要在行人从停放的车辆之间走出时做出反应。而在工厂里,安全系统必须预测叉车的行进方向,而不仅仅是检测到它的存在。
在现实世界中捕捉和重现这些场景既缓慢又昂贵,而且往往无法大规模重复。
NVIDIA Cosmos 3正是为此而生。这款全新的世界基础模型在今天于台北COMPUTEX举办的NVIDIA GTC大会上发布,它将视觉推理和多模态生成能力整合在单一模型中,涵盖文本、视频、图像、环境声音和动作,帮助开发者创建具有物理上下文的世界数据。
Q&A
Q1:NVIDIA Cosmos 3是什么?
A:NVIDIA Cosmos 3是一款世界基础模型,它将视觉推理和多模态生成能力整合在单一模型中,能够处理文本、视频、图像、环境声音和动作等多种模态,帮助开发者为物理AI系统创建具有物理上下文的世界数据。
Q2:物理AI系统为什么需要预测能力?
A:物理AI系统如机器人、自动驾驶汽车和智能空间需要在现实世界中自主运行。它们不仅要理解当前看到的内容和原因,还需要预测接下来可能发生的情况,以便做出正确的决策和反应,比如应对突然出现的行人或预测叉车的行进方向。
Q3:为什么在现实世界中训练物理AI系统很困难?
A:在现实世界中捕捉和重现训练场景既缓慢又昂贵,而且往往无法大规模重复。比如仓库中的特殊物体配置或道路上的突发情况,这些场景难以在真实环境中反复创建用于训练。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。