英伟达于周二展示了其新款和计划发布GPU的推理优势,该公司正为数据中心从密集AI训练工作负载向更多样化推理需求的转变做准备。
英伟达凭借其先进的GPU在AI训练市场占据主导地位。但随着需求转向推理工作负载——使用训练好的模型进行预测——不同的用例将需要各种硅解决方案。
这家位于加利福尼亚州圣克拉拉的GPU巨头发布了Rubin CPX,这是一款专为处理大规模上下文而构建的新型GPU。这将使AI系统能够处理百万Token的软件编程和生成式视频。
新设备还承诺为推理任务提供能效和高性能,投资1亿美元可获得50亿美元的Token收入。
Rubin CPX将在英伟达新的Vera Rubin NVL 144 CPX平台内运行。
该公司表示,其由Blackwell Ultra和即将推出的Vera Rubin GPU驱动的新推理数据中心平台将解决最繁重的工作负载。
转向推理市场
随着市场转变,英伟达在数据中心市场份额主导地位可能面临更多来自专注各种推理需求公司的竞争。因此,该制造商押注其顶级GPU为驱动所谓"AI工厂"的专家混合(MoE)大语言模型架构提供所需性能。
根据Markets and Markets报告,全球AI推理市场2025年估值为1060亿美元,预计到2030年将增长至2550亿美元。
"我喜欢英伟达向推理领域倾斜,因为那是市场发展方向,"Moor Insights & Strategy副总裁兼首席分析师Matt Kimball在接受Data Center Knowledge采访时表示。
"Rubin是一个强大的组件...就像Blackwell相比Hopper一样强大。你说的是开启更快更大的推理,开启那些Token窗口。"
但Kimball表示,该产品并非针对普通企业用户。"这是采用Rubin并创建专门的推理组件,真正面向高端市场,"他补充说,超大规模云服务商和大型企业可能构成Rubin客户的主体。
英伟达AI和数据中心GPU营销总监Shar Narasimhan表示:"[Rubin CPX]解锁了智能编程系统和视频生成等高端用例的新层级。它将大幅提高AI工厂的生产力和性能。"
Blackwell Ultra的推理性能提升
周二,英伟达还分享了其Blackwell Ultra驱动的GB300 NVL72机架级系统的基准测试结果,显示DeepSeek-R1推理性能比前代产品提升1.4倍。
该公司表示,该系统还在MLPerf Inference v5.1套件新增的所有数据中心基准测试中创下记录,包括Llama 3.1 405B Interactive、Llama 3.1 8B和Whisper。
英伟达加速计算产品总监Dave Salvatore在新闻发布会上表示:"我对这些数字非常满意。随着我们继续优化Blackwell Ultra软件栈,我们预计这些数字会随时间增长。"
英伟达表示,Blackwell Ultra的基准测试结果展示了硬件提高AI工厂生产力、增加收入并降低拥有成本的潜力。
Q&A
Q1:Rubin CPX是什么?有什么特殊功能?
A:Rubin CPX是英伟达发布的一款专为处理大规模上下文而构建的新型GPU。它能够使AI系统处理百万Token的软件编程和生成式视频,专门针对大规模推理工作负载设计,承诺为推理任务提供高能效和高性能。
Q2:AI推理市场前景如何?
A:根据Markets and Markets报告,全球AI推理市场2025年估值为1060亿美元,预计到2030年将增长至2550亿美元。随着市场从AI训练转向推理应用,这个领域正成为重要的增长点。
Q3:Blackwell Ultra相比前代产品有什么提升?
A:Blackwell Ultra驱动的GB300 NVL72系统在DeepSeek-R1推理性能上比前代产品提升1.4倍,并在MLPerf Inference v5.1套件的所有新增数据中心基准测试中创下记录,包括Llama 3.1 405B Interactive、Llama 3.1 8B和Whisper等测试项目。
好文章,需要你的鼓励
本文介绍了如何在Windows和macOS等主流操作系统上使用免费开源软件,无需更换操作系统即可摆脱付费订阅。文章推荐了Ninite等工具来安装免费软件,并详细介绍了Firefox、Thunderbird、LibreOffice、VLC等优秀的开源替代方案。作者强调虽然学习新工具需要时间投入,但从长远来看,使用不依赖订阅模式的替代工具将带来巨大回报。
这项由多伦多大学领导的研究首次系统性地揭示了分词器选择对语言模型性能的重大影响。通过训练14个仅在分词器上有差异的相同模型,并使用包含5000个现实场景测试样本的基准测试,研究发现分词器的算法设计比词汇表大小更重要,字符级处理虽然效率较低但稳定性更强,而Unicode格式化是所有分词器的普遍弱点。这一发现将推动AI系统基础组件的优化发展。
随着生成式人工智能系统提供直接答案而非链接列表,传统搜索引擎优化正面临重大变革。谷歌AI概述功能已覆盖约30%的美国搜索,导致网站点击率大幅下降。专家预测,到2030年AI将占B2B软件研究的70%以上。AI引擎更重视结构化数据、实体识别和权威性,而非传统的关键词和反向链接。营销人员需要采用实体权威工程等新策略来优化AI可见性。
北京大学研究团队提出NExT-Vid方法,首次将自回归下一帧预测引入视频AI预训练。通过创新的上下文隔离设计和流匹配解码器,让机器像人类一样预测视频下一帧来学习理解视频内容。该方法在四个标准数据集上全面超越现有生成式预训练方法,为视频推荐、智能监控、医疗诊断等应用提供了新的技术基础。