本月初的 CES 展会上,Nvidia 宣布了名为 Nvidia Cosmos 的开发项目。
这个名字本身并不能说明太多,它让人联想到广阔的天空或是人类用来解释万物起源的宇宙学。
那么这个系统究竟是什么?
Nvidia 将 Cosmos 定义为"一个最先进的生成式世界基础模型平台",并将世界基础模型定义为"能够模拟真实环境,并基于文本、图像或视频输入预测准确结果的神经网络"。
据发言人解释,世界模型能够"理解"真实世界的物理规律。它们支持机器人系统和自动驾驶汽车的开发,以及其他能够遵循道路规则或工作场所要求的物理结构。从某种意义上说,这些都是推动能够像人类一样思考、推理、移动并最终生活的物理实体诞生的引擎。
技术术语表 Nvidia 团队还详细介绍了 Nvidia Cosmos 的其他方面,包括"帮助将高层数据分割成可用片段的高级分词器"。
作为参考,以下是 ChatGPT 对高级分词器的描述:"高级分词器超越了简单的空格或基于规则的分段方式,能够生成子词、字节级或混合段,更好地处理罕见词、多语言文本和特定领域的词汇...这些'智能'分词器是现代自然语言处理系统的重要基础,使模型能够扩展到海量数据集和多样化的语言输入。"
这些模型将以开放许可的方式提供,以帮助开发者进行开发。Nvidia 1 月份的新闻稿解释道:
"物理 AI 模型的开发成本高昂,需要大量的真实世界数据和测试。Cosmos 世界基础模型 (WFM) 为开发者提供了一种简单的方法,可以生成大量逼真的、基于物理的合成数据,用于训练和评估他们现有的模型。"
尽管对破解和黑客攻击的担忧可以理解,但企业们可能会对有机会在这家美国领先科技公司的成果基础上进行构建感到兴奋。
此外,在数据管理过程中,Nvidia NeMo 将提供"加速"流程。
总而言之:这些是"物理感知"系统。它们听起来像是将 AI 带入"我们之中"的关键应用部件,能够影响我们的生活,而不是仅仅被封闭在某台计算机中。我们的机器人朋友将会是什么样子?我们将如何对待它们,它们又将如何对待我们?这些都是我们作为社会必须考虑的问题。
Nvidia Cosmos:案例研究 当我阅读已经采用 Nvidia Cosmos 技术的公司名单时,大多数都很陌生。但有一个公司很突出:
网约车公司 Uber 是这类物理 AI 的早期采用者。
"生成式 AI 将推动移动出行的未来,这需要丰富的数据和强大的计算能力," Uber CEO Dara Khosrowshahi 在新闻声明中表示。"通过与 NVIDIA 合作,我们有信心能够帮助加速实现安全且可扩展的自动驾驶解决方案。"
"安全且可扩展的自动驾驶"这句话可能很好地概括了这个项目,尽管,就像过去二十年左右的自动驾驶车辆设计一样,魔鬼藏在细节中。
关于 Uber 具体如何使用 Nvidia Cosmos 的信息并不多。但我们可以更好地理解这个框架本身,以及 Nvidia 作为这类系统主要创新者所做的工作。
Omniverse 我还了解到 Nvidia Omniverse 平台,该公司是这样描述的:
"一个由 API、SDK 和服务组成的平台,使开发者能够将 OpenUSD、NVIDIA RTX(TM) 渲染技术和生成式物理 AI 集成到现有的软件工具和模拟工作流程中,用于工业和机器人应用场景。"
听起来 Omniverse 平台更多的是用于评估、监控和工具使用,以帮助探索世界基础模型本身的可能性。
转折点 最后引用 CEO Jensen Huang 的话作为结束:"机器人的 ChatGPT 时刻即将到来。"
这可能才是头条新闻,因为我们所有人都一直在想,什么时候我们才能开始看到这些智能的、具有物理感知能力的机器人行走在我们中间,或者驱动真正的自动驾驶汽车。
答案似乎是:这一天会比预期来得更早。
好文章,需要你的鼓励
这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。
这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。
这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。