本月初的 CES 展会上,Nvidia 宣布了名为 Nvidia Cosmos 的开发项目。
这个名字本身并不能说明太多,它让人联想到广阔的天空或是人类用来解释万物起源的宇宙学。
那么这个系统究竟是什么?
Nvidia 将 Cosmos 定义为"一个最先进的生成式世界基础模型平台",并将世界基础模型定义为"能够模拟真实环境,并基于文本、图像或视频输入预测准确结果的神经网络"。
据发言人解释,世界模型能够"理解"真实世界的物理规律。它们支持机器人系统和自动驾驶汽车的开发,以及其他能够遵循道路规则或工作场所要求的物理结构。从某种意义上说,这些都是推动能够像人类一样思考、推理、移动并最终生活的物理实体诞生的引擎。
技术术语表 Nvidia 团队还详细介绍了 Nvidia Cosmos 的其他方面,包括"帮助将高层数据分割成可用片段的高级分词器"。
作为参考,以下是 ChatGPT 对高级分词器的描述:"高级分词器超越了简单的空格或基于规则的分段方式,能够生成子词、字节级或混合段,更好地处理罕见词、多语言文本和特定领域的词汇...这些'智能'分词器是现代自然语言处理系统的重要基础,使模型能够扩展到海量数据集和多样化的语言输入。"
这些模型将以开放许可的方式提供,以帮助开发者进行开发。Nvidia 1 月份的新闻稿解释道:
"物理 AI 模型的开发成本高昂,需要大量的真实世界数据和测试。Cosmos 世界基础模型 (WFM) 为开发者提供了一种简单的方法,可以生成大量逼真的、基于物理的合成数据,用于训练和评估他们现有的模型。"
尽管对破解和黑客攻击的担忧可以理解,但企业们可能会对有机会在这家美国领先科技公司的成果基础上进行构建感到兴奋。
此外,在数据管理过程中,Nvidia NeMo 将提供"加速"流程。
总而言之:这些是"物理感知"系统。它们听起来像是将 AI 带入"我们之中"的关键应用部件,能够影响我们的生活,而不是仅仅被封闭在某台计算机中。我们的机器人朋友将会是什么样子?我们将如何对待它们,它们又将如何对待我们?这些都是我们作为社会必须考虑的问题。
Nvidia Cosmos:案例研究 当我阅读已经采用 Nvidia Cosmos 技术的公司名单时,大多数都很陌生。但有一个公司很突出:
网约车公司 Uber 是这类物理 AI 的早期采用者。
"生成式 AI 将推动移动出行的未来,这需要丰富的数据和强大的计算能力," Uber CEO Dara Khosrowshahi 在新闻声明中表示。"通过与 NVIDIA 合作,我们有信心能够帮助加速实现安全且可扩展的自动驾驶解决方案。"
"安全且可扩展的自动驾驶"这句话可能很好地概括了这个项目,尽管,就像过去二十年左右的自动驾驶车辆设计一样,魔鬼藏在细节中。
关于 Uber 具体如何使用 Nvidia Cosmos 的信息并不多。但我们可以更好地理解这个框架本身,以及 Nvidia 作为这类系统主要创新者所做的工作。
Omniverse 我还了解到 Nvidia Omniverse 平台,该公司是这样描述的:
"一个由 API、SDK 和服务组成的平台,使开发者能够将 OpenUSD、NVIDIA RTX(TM) 渲染技术和生成式物理 AI 集成到现有的软件工具和模拟工作流程中,用于工业和机器人应用场景。"
听起来 Omniverse 平台更多的是用于评估、监控和工具使用,以帮助探索世界基础模型本身的可能性。
转折点 最后引用 CEO Jensen Huang 的话作为结束:"机器人的 ChatGPT 时刻即将到来。"
这可能才是头条新闻,因为我们所有人都一直在想,什么时候我们才能开始看到这些智能的、具有物理感知能力的机器人行走在我们中间,或者驱动真正的自动驾驶汽车。
答案似乎是:这一天会比预期来得更早。
好文章,需要你的鼓励
OpenAI和微软宣布签署一项非约束性谅解备忘录,修订双方合作关系。随着两家公司在AI市场竞争客户并寻求新的基础设施合作伙伴,其关系日趋复杂。该协议涉及OpenAI从非营利组织向营利实体的重组计划,需要微软这一最大投资者的批准。双方表示将积极制定最终合同条款,共同致力于为所有人提供最佳AI工具。
中山大学团队针对OpenAI O1等长思考推理模型存在的"长度不和谐"问题,提出了O1-Pruner优化方法。该方法通过长度-和谐奖励机制和强化学习训练,成功将模型推理长度缩短30-40%,同时保持甚至提升准确率,显著降低了推理时间和计算成本,为高效AI推理提供了新的解决方案。
中国科技企业发布了名为R1的人形机器人,直接对标特斯拉的Optimus机器人产品。这款新型机器人代表了中国在人工智能和机器人技术领域的最新突破,展现出与国际巨头竞争的实力。R1机器人的推出标志着全球人形机器人市场竞争进一步加剧。
上海AI实验室研究团队深入调查了12种先进视觉语言模型在自动驾驶场景中的真实表现,发现这些AI系统经常在缺乏真实视觉理解的情况下生成看似合理的驾驶解释。通过DriveBench测试平台的全面评估,研究揭示了现有评估方法的重大缺陷,并为开发更可靠的AI驾驶系统提供了重要指导。