英伟达在周一发布了一系列新的世界AI模型、库和其他面向机器人开发者的基础设施,其中最引人注目的是Cosmos Reason,这是一个拥有70亿参数的"推理"视觉语言模型,专门用于物理AI应用和机器人。
除了现有的Cosmos世界模型批次外,新加入的还有Cosmos Transfer-2,它可以加速从3D仿真场景或空间控制输入生成合成数据,以及一个经过蒸馏优化的Cosmos Transfers版本,更注重速度优化。
在周一SIGGRAPH会议的发布会上,英伟达指出,这些模型旨在用于创建合成文本、图像和视频数据集,以训练机器人和AI智能体。
据英伟达介绍,Cosmos Reason凭借其记忆和物理理解能力,让机器人和AI智能体能够进行"推理",使其能够"作为规划模型来推理具身智能体可能采取的下一步行动"。该公司表示,它可用于数据整理、机器人规划和视频分析。
该公司还发布了新的神经重建库,其中包括一种渲染技术,让开发者能够使用传感器数据在3D环境中模拟真实世界。这种渲染能力也正在集成到开源模拟器CARLA中,这是一个受欢迎的开发者平台。Omniverse软件开发套件也获得了更新。
机器人工作流程也有新的服务器支持。英伟达RTX Pro Blackwell服务器为机器人开发工作负载提供单一架构,而英伟达DGX Cloud则是基于云的管理平台。
这些发布正值这家半导体巨头进一步进军机器人领域,寻求其AI GPU在AI数据中心之外的下一个重大应用场景。
Q&A
Q1:Cosmos Reason是什么?它有什么功能?
A:Cosmos Reason是英伟达发布的一个拥有70亿参数的"推理"视觉语言模型,专门用于物理AI应用和机器人。它凭借记忆和物理理解能力,让机器人和AI智能体能够进行推理,作为规划模型来推理具身智能体可能采取的下一步行动,可用于数据整理、机器人规划和视频分析。
Q2:Cosmos Transfer-2有什么特点?
A:Cosmos Transfer-2是英伟达新发布的世界模型之一,它的主要特点是能够加速从3D仿真场景或空间控制输入生成合成数据。此外,还有一个经过蒸馏优化的Cosmos Transfers版本,更注重速度优化。
Q3:英伟达为什么要进军机器人领域?
A:英伟达进军机器人领域是因为该公司正在寻求其AI GPU在AI数据中心之外的下一个重大应用场景。作为半导体巨头,英伟达希望通过提供机器人开发的基础设施和AI模型,拓展其GPU技术的应用范围。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。