英伟达周一在其GTC大会上宣布成立Nemotron联盟。这个全新的AI实验室联盟将汇集专业知识、数据和评估能力,共同构建共享的基础模型,而英伟达负责在其DGX云基础设施上进行训练。该联盟的首个项目是一个目前正在训练的新基础模型,它将为即将推出的Nemotron 4系列奠定基础。
创始成员包括Black Forest Labs、Cursor、LangChain、Mistral、Perplexity、Reflection AI、Sarvam和Thinking Machines Lab。其中几家公司已经与英伟达建立了合作关系。例如,以Flux图像模型闻名的Black Forest Labs一直在与英伟达就模型优化进行合作,而Perplexity和LangChain已经在其平台中集成了英伟达的Nemotron模型。
核心信息似乎是,这些基础模型正在成为基本门槛,并不一定能让这些公司实现差异化竞争。相反,是训练后处理和其他工作让它们能够将这些模型变成自己的产品。
英伟达企业生成式AI软件副总裁Kari Briski在发布前的新闻发布会上表示:"构建前沿模型需要大量时间、专业知识和计算资源——这是大多数组织无法独自承担的重大投资。虽然许多人想要开放模型,但很少有人拥有独立构建它们的资源。与其让每个团队在相同的基础模型上重复努力,我们正在共同构建一个共享的开放基础。"
毕竟,开发前沿开放模型需要巨大的计算资源,只有像OpenAI、Anthropic、谷歌——以及英伟达——这样的公司才能独立投资。联盟成员不再各自重复相同的基础模型训练,而是贡献领域专业知识、数据和评估,英伟达提供DGX云计算。生成的基础模型是开放的,参与者——或任何其他人——都可以根据自己的用例对其进行调优。
除了联盟及其构建Nemotron 4模型的计划外,英伟达还宣布了Nemotron 3系列的最新成员:Nemotron 3 Ultra。
英伟达去年首次宣布了Ultra模型的计划。当时,该公司表示它将拥有5000亿个参数,其中500亿个为活跃参数。
遗憾的是,该模型尚未发布。英伟达表示已完成训练,并称其为"世界上最好的开放基础模型",但我们还需要在实践中看到其表现。
英伟达还重点介绍了Nemotron 3 Super,这是一个拥有1200亿参数的混合Mamba-Transformer模型,具有120亿个活跃参数。这个较小的模型于3月11日发布,在PinchBench上得分85.6%,该基准测试评估大语言模型作为OpenClaw智能体大脑的表现。据英伟达称,这使其成为该基准测试中得分最高的开放模型,总体排名第四。它具有原生100万Token上下文窗口,专为长期运行的智能体工作流程而设计。
Q&A
Q1:Nemotron联盟是什么?它的目的是什么?
A:Nemotron联盟是英伟达在GTC大会上宣布成立的AI实验室联盟,旨在汇集专业知识、数据和评估能力,共同构建共享的基础模型。联盟成员贡献领域专业知识、数据和评估,英伟达提供DGX云计算资源进行训练。
Q2:为什么要成立这个联盟而不是各自独立开发?
A:构建前沿模型需要大量时间、专业知识和计算资源,是大多数组织无法独自承担的重大投资。与其让每个团队在相同的基础模型上重复努力,联盟成员可以共同构建共享的开放基础,然后根据自己的用例对模型进行调优。
Q3:Nemotron 3 Ultra有什么特点?
A:Nemotron 3 Ultra拥有5000亿个参数,其中500亿个为活跃参数。英伟达称其为"世界上最好的开放基础模型",已完成训练但尚未发布。另外还有Nemotron 3 Super,具有1200亿参数和原生100万Token上下文窗口。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。