现实世界始终处于运动之中。为了实现自主运行,物理AI系统——包括机器人、自动驾驶汽车和智能空间——不仅需要理解它们所看到的内容以及导致这些现象发生的原因,还需要预测接下来可能发生什么。
在仓库中,机器人可能会遇到从未见过的物体配置。在道路上,自动驾驶汽车可能需要在行人从停放的车辆之间走出时做出反应。而在工厂里,安全系统必须预测叉车的行进方向,而不仅仅是检测到它的存在。
在现实世界中捕捉和重现这些场景既缓慢又昂贵,而且往往无法大规模重复。
NVIDIA Cosmos 3正是为此而生。这款全新的世界基础模型在今天于台北COMPUTEX举办的NVIDIA GTC大会上发布,它将视觉推理和多模态生成能力整合在单一模型中,涵盖文本、视频、图像、环境声音和动作,帮助开发者创建具有物理上下文的世界数据。
Q&A
Q1:NVIDIA Cosmos 3是什么?
A:NVIDIA Cosmos 3是一款世界基础模型,它将视觉推理和多模态生成能力整合在单一模型中,能够处理文本、视频、图像、环境声音和动作等多种模态,帮助开发者为物理AI系统创建具有物理上下文的世界数据。
Q2:物理AI系统为什么需要预测能力?
A:物理AI系统如机器人、自动驾驶汽车和智能空间需要在现实世界中自主运行。它们不仅要理解当前看到的内容和原因,还需要预测接下来可能发生的情况,以便做出正确的决策和反应,比如应对突然出现的行人或预测叉车的行进方向。
Q3:为什么在现实世界中训练物理AI系统很困难?
A:在现实世界中捕捉和重现训练场景既缓慢又昂贵,而且往往无法大规模重复。比如仓库中的特殊物体配置或道路上的突发情况,这些场景难以在真实环境中反复创建用于训练。
好文章,需要你的鼓励
随着AI基础设施快速扩张,水资源正成为继电力之后的另一重大制约因素。高密度GPU集群产生大量热能,需要大规模冷却水支撑,部分数据中心单日用水需求高达数百万加仑。多地水务部门已明确表示现有供水能力无法满足需求。研究预测,到2030年美国数据中心新增日用水需求可能高达14.5亿加仑。水资源短缺、废水处理压力及峰值用水波动,正深刻影响AI数据中心的选址与建设规划。
研究揭示多源视觉融合并非总有益,提出MARS框架通过单源锚点量化信息增益,动态调节多源融合优势,在多个视觉推理任务上实现显著性能提升。
CoreWeave发布新平台,支持企业部署可自主学习和优化的AI智能体。该平台通过无服务器强化学习机制,让大语言模型在真实业务环境中持续微调,无需企业自建基础设施。相比传统方式,该方案可降低超40%成本,训练速度提升约1.4倍,且不影响质量。据麦肯锡2025年AI现状报告,约62%的受访企业正在试验AI智能体,生产部署趋势日益明显。
MiniMax发布M2系列混合专家大模型,总参数2299亿但每次仅激活98亿,通过专项数据流水线、Forge强化学习系统和自进化机制,在代理编程、深度搜索等任务上达到顶级闭源模型水平。