Nvidia 正在研发的物理感知系统解析

Nvidia 在 CES 上发布了 Cosmos 平台,这是一套基于物理规律的生成式世界基础模型。该平台可模拟真实环境,预测准确结果,支持机器人和自动驾驶等领域的发展。Cosmos 采用开放许可,为开发者提供海量合成数据,助力 AI 系统与现实世界更好地交互。

本月初的 CES 展会上,Nvidia 宣布了名为 Nvidia Cosmos 的开发项目。

这个名字本身并不能说明太多,它让人联想到广阔的天空或是人类用来解释万物起源的宇宙学。

那么这个系统究竟是什么?

Nvidia 将 Cosmos 定义为"一个最先进的生成式世界基础模型平台",并将世界基础模型定义为"能够模拟真实环境,并基于文本、图像或视频输入预测准确结果的神经网络"。

据发言人解释,世界模型能够"理解"真实世界的物理规律。它们支持机器人系统和自动驾驶汽车的开发,以及其他能够遵循道路规则或工作场所要求的物理结构。从某种意义上说,这些都是推动能够像人类一样思考、推理、移动并最终生活的物理实体诞生的引擎。

技术术语表 Nvidia 团队还详细介绍了 Nvidia Cosmos 的其他方面,包括"帮助将高层数据分割成可用片段的高级分词器"。

作为参考,以下是 ChatGPT 对高级分词器的描述:"高级分词器超越了简单的空格或基于规则的分段方式,能够生成子词、字节级或混合段,更好地处理罕见词、多语言文本和特定领域的词汇...这些'智能'分词器是现代自然语言处理系统的重要基础,使模型能够扩展到海量数据集和多样化的语言输入。"

这些模型将以开放许可的方式提供,以帮助开发者进行开发。Nvidia 1 月份的新闻稿解释道:

"物理 AI 模型的开发成本高昂,需要大量的真实世界数据和测试。Cosmos 世界基础模型 (WFM) 为开发者提供了一种简单的方法,可以生成大量逼真的、基于物理的合成数据,用于训练和评估他们现有的模型。"

尽管对破解和黑客攻击的担忧可以理解,但企业们可能会对有机会在这家美国领先科技公司的成果基础上进行构建感到兴奋。

此外,在数据管理过程中,Nvidia NeMo 将提供"加速"流程。

总而言之:这些是"物理感知"系统。它们听起来像是将 AI 带入"我们之中"的关键应用部件,能够影响我们的生活,而不是仅仅被封闭在某台计算机中。我们的机器人朋友将会是什么样子?我们将如何对待它们,它们又将如何对待我们?这些都是我们作为社会必须考虑的问题。

Nvidia Cosmos:案例研究 当我阅读已经采用 Nvidia Cosmos 技术的公司名单时,大多数都很陌生。但有一个公司很突出:

网约车公司 Uber 是这类物理 AI 的早期采用者。

"生成式 AI 将推动移动出行的未来,这需要丰富的数据和强大的计算能力," Uber CEO Dara Khosrowshahi 在新闻声明中表示。"通过与 NVIDIA 合作,我们有信心能够帮助加速实现安全且可扩展的自动驾驶解决方案。"

"安全且可扩展的自动驾驶"这句话可能很好地概括了这个项目,尽管,就像过去二十年左右的自动驾驶车辆设计一样,魔鬼藏在细节中。

关于 Uber 具体如何使用 Nvidia Cosmos 的信息并不多。但我们可以更好地理解这个框架本身,以及 Nvidia 作为这类系统主要创新者所做的工作。

Omniverse 我还了解到 Nvidia Omniverse 平台,该公司是这样描述的:

"一个由 API、SDK 和服务组成的平台,使开发者能够将 OpenUSD、NVIDIA RTX(TM) 渲染技术和生成式物理 AI 集成到现有的软件工具和模拟工作流程中,用于工业和机器人应用场景。"

听起来 Omniverse 平台更多的是用于评估、监控和工具使用,以帮助探索世界基础模型本身的可能性。

转折点 最后引用 CEO Jensen Huang 的话作为结束:"机器人的 ChatGPT 时刻即将到来。"

这可能才是头条新闻,因为我们所有人都一直在想,什么时候我们才能开始看到这些智能的、具有物理感知能力的机器人行走在我们中间,或者驱动真正的自动驾驶汽车。

答案似乎是:这一天会比预期来得更早。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

01/20

16:38

分享

点赞

邮件订阅