本月初的 CES 展会上,Nvidia 宣布了名为 Nvidia Cosmos 的开发项目。
这个名字本身并不能说明太多,它让人联想到广阔的天空或是人类用来解释万物起源的宇宙学。
那么这个系统究竟是什么?
Nvidia 将 Cosmos 定义为"一个最先进的生成式世界基础模型平台",并将世界基础模型定义为"能够模拟真实环境,并基于文本、图像或视频输入预测准确结果的神经网络"。
据发言人解释,世界模型能够"理解"真实世界的物理规律。它们支持机器人系统和自动驾驶汽车的开发,以及其他能够遵循道路规则或工作场所要求的物理结构。从某种意义上说,这些都是推动能够像人类一样思考、推理、移动并最终生活的物理实体诞生的引擎。
技术术语表 Nvidia 团队还详细介绍了 Nvidia Cosmos 的其他方面,包括"帮助将高层数据分割成可用片段的高级分词器"。
作为参考,以下是 ChatGPT 对高级分词器的描述:"高级分词器超越了简单的空格或基于规则的分段方式,能够生成子词、字节级或混合段,更好地处理罕见词、多语言文本和特定领域的词汇...这些'智能'分词器是现代自然语言处理系统的重要基础,使模型能够扩展到海量数据集和多样化的语言输入。"
这些模型将以开放许可的方式提供,以帮助开发者进行开发。Nvidia 1 月份的新闻稿解释道:
"物理 AI 模型的开发成本高昂,需要大量的真实世界数据和测试。Cosmos 世界基础模型 (WFM) 为开发者提供了一种简单的方法,可以生成大量逼真的、基于物理的合成数据,用于训练和评估他们现有的模型。"
尽管对破解和黑客攻击的担忧可以理解,但企业们可能会对有机会在这家美国领先科技公司的成果基础上进行构建感到兴奋。
此外,在数据管理过程中,Nvidia NeMo 将提供"加速"流程。
总而言之:这些是"物理感知"系统。它们听起来像是将 AI 带入"我们之中"的关键应用部件,能够影响我们的生活,而不是仅仅被封闭在某台计算机中。我们的机器人朋友将会是什么样子?我们将如何对待它们,它们又将如何对待我们?这些都是我们作为社会必须考虑的问题。
Nvidia Cosmos:案例研究 当我阅读已经采用 Nvidia Cosmos 技术的公司名单时,大多数都很陌生。但有一个公司很突出:
网约车公司 Uber 是这类物理 AI 的早期采用者。
"生成式 AI 将推动移动出行的未来,这需要丰富的数据和强大的计算能力," Uber CEO Dara Khosrowshahi 在新闻声明中表示。"通过与 NVIDIA 合作,我们有信心能够帮助加速实现安全且可扩展的自动驾驶解决方案。"
"安全且可扩展的自动驾驶"这句话可能很好地概括了这个项目,尽管,就像过去二十年左右的自动驾驶车辆设计一样,魔鬼藏在细节中。
关于 Uber 具体如何使用 Nvidia Cosmos 的信息并不多。但我们可以更好地理解这个框架本身,以及 Nvidia 作为这类系统主要创新者所做的工作。
Omniverse 我还了解到 Nvidia Omniverse 平台,该公司是这样描述的:
"一个由 API、SDK 和服务组成的平台,使开发者能够将 OpenUSD、NVIDIA RTX(TM) 渲染技术和生成式物理 AI 集成到现有的软件工具和模拟工作流程中,用于工业和机器人应用场景。"
听起来 Omniverse 平台更多的是用于评估、监控和工具使用,以帮助探索世界基础模型本身的可能性。
转折点 最后引用 CEO Jensen Huang 的话作为结束:"机器人的 ChatGPT 时刻即将到来。"
这可能才是头条新闻,因为我们所有人都一直在想,什么时候我们才能开始看到这些智能的、具有物理感知能力的机器人行走在我们中间,或者驱动真正的自动驾驶汽车。
答案似乎是:这一天会比预期来得更早。
好文章,需要你的鼓励
谷歌今日发布Gemini Enterprise,这是一个集成了先进AI模型、聊天机器人和智能代理的一体化企业平台。该平台提供统一聊天界面,可安全连接各种数据源,包括Google Workspace、Microsoft 365等企业应用。平台内置超过1500个AI代理,支持无代码构建工具,用户可创建自动化工作流程。标准版年费每席位每月30美元起。
华中科技大学联合华为和上海交大研究团队开发出革命性3D人体重建系统Snap-Snap,仅需正面和背面两张照片即可在190毫秒内生成完整3D人像。该技术突破了传统方法对昂贵设备和复杂人体先验模型的依赖,通过智能几何推理和侧面增强算法实现高质量重建,为虚拟现实、游戏开发等领域的大众化应用奠定基础。
OpenAI推出的AI视频生成应用Sora在不到五天内下载量突破100万次,增长速度超过ChatGPT。该应用类似TikTok,提供无限垂直视频流,但所有视频均由AI生成。用户只需输入提示词即可创建10秒视频,还可通过Cameo功能制作个人视频。尽管目前仅在北美地区开放且需要邀请码使用,但已引发版权争议和娱乐行业反弹。
这项研究介绍了aiXiv——首个专为AI科学家设计的开放学术平台。该平台由多伦多大学等18个机构联合开发,支持AI独立完成论文提交、同行评审和发表全流程。通过多智能体架构和五阶段安全防护机制,平台实现了81%的评判准确率,并显著提升了AI生成研究的质量。这标志着科学研究范式的重大转变。