英伟达推出千兆级网络与快速推理服务技术

英伟达发布Spectrum-XGS千兆级以太网交换平台，实现数据中心间互联协调，让分布式GPU集群如同一个巨型处理器运行。同时推出Dynamo推理服务框架，通过分解式服务技术将上下文构建和令牌生成分配到不同GPU，显著提升模型部署效率。在GPT和DeepSeek等模型测试中，令牌生成速度分别提升4倍和2.5倍，投机解码技术更实现35%性能提升。

英伟达公司今日宣布在人工智能软件和网络创新方面取得重大进展，旨在加速AI基础设施建设和模型部署。

作为驱动AI经济发展的图形处理单元制造商，英伟达为其专门针对AI工作负载设计的Spectrum-X以太网交换平台推出了Spectrum-XGS"千兆级"技术。Spectrum-X能够连接数据中心内的整个集群，让海量数据集在AI模型间流动。而Spectrum-XGS则进一步扩展了这一能力，提供数据中心间的编排和互连功能。

"大家听过我们使用'向上扩展'和'向外扩展'这些术语。现在我们引入一个新概念——'跨域扩展'，"英伟达加速计算产品总监戴夫·萨尔瓦托表示。"这些交换机专门用于支持多站点规模扩展，让不同数据中心能够相互通信，本质上就像一个超大GPU。"

在数据中心应用方面，"向上扩展"意味着更大的机器，"向外扩展"指的是数据中心内更多的机器。然而，许多数据中心在功耗或散热能力方面存在限制，超过阈值就会影响效率。这限制了特定位置可部署的机器数量或计算能力。

萨尔瓦托表示，该系统能最大程度降低抖动和延迟——即数据包到达时间的变化和发送数据与接收响应之间的延迟。这两个因素在AI网络中至关重要，因为它们决定了跨站点分布的GPU之间能够实现的带宽。

相比之下，英伟达在5月发布的网络结构技术NVLink Fusion，允许云服务提供商扩展数据中心规模，同时处理数百万个GPU。NVLink Fusion和Spectrum-XGS共同构成了AI基础设施扩展的两个层次：数据中心内部扩展和跨多个数据中心扩展。

推理服务方法的研究突破

Dynamo是英伟达的推理服务框架，负责模型部署和知识处理。

英伟达一直在研究如何使用该平台通过名为"分离式服务"的专门技术来部署模型。这种技术将"预填充"（上下文构建）和"解码"（Token生成）分配到不同的GPU或服务器上。

这点非常重要，因为推理服务曾经被认为是模型训练的次要任务，但在智能体AI时代已成为严峻挑战，推理模型生成的Token数量远超早期模型。Dynamo正是英伟达针对这一问题的解决方案，提供更快、更高效、更具成本效益的处理方式。

"以GPT OSS这样的模型交互性为例——这是OpenAI刚发布的最新社区模型，我们能够实现每秒Token数量约4倍的提升，"萨尔瓦托说道。"在DeepSeek上，我们也取得了显著改进，实现了2.5倍的性能提升。"

英伟达还在研究"推测解码"技术，使用第二个较小的模型来猜测主模型对给定提示的输出，以此加速处理过程。"这种技术的工作原理是使用所谓的草稿模型，这是一个较小的模型，试图生成潜在的下一个Token，"萨尔瓦托解释道。

由于较小的模型速度更快但准确性较低，它可以生成多个猜测供主模型验证。

"这里的关键在于，草稿模型推测性地正确猜中下一个Token的次数越多，就能获得越多的性能提升，"萨尔瓦托解释说。"我们已经看到使用这些技术能带来约35%的性能提升。"

据萨尔瓦托介绍，主要的AI模型会根据其学习到的概率分布并行进行验证。只有被接受的Token才会被提交，被拒绝的Token则被丢弃。这将延迟控制在200毫秒以内，他称之为"快速且交互性强"。

Q&A

Q1：Spectrum-XGS技术是什么？它有什么作用？

A：Spectrum-XGS是英伟达为Spectrum-X以太网交换平台推出的"千兆级"技术，专门针对AI工作负载设计。它能提供数据中心间的编排和互连功能，让不同数据中心相互通信，本质上就像一个超大GPU，实现"跨域扩展"。

Q2：Dynamo推理服务框架如何提升AI模型性能？

A：Dynamo通过分离式服务技术，将"预填充"和"解码"分配到不同GPU或服务器上。在GPT OSS模型上能实现每秒Token数量约4倍提升，在DeepSeek上实现2.5倍性能提升，为智能体AI时代提供更高效的处理方式。

Q3：推测解码技术的工作原理是什么？

A：推测解码使用较小的草稿模型来猜测主模型的输出，加速处理过程。草稿模型速度快但准确性低，能生成多个猜测供主模型验证。英伟达已通过这项技术实现约35%的性能提升，延迟控制在200毫秒以内。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

英伟达推出千兆级网络与快速推理服务技术

来源：SiliconANGLE

2025

08/25

08:04

分享

点赞

AI智能体漏洞挖掘成本骤降，Anthropic呼吁AI防御

Spotify年度盘点2025首次推出多人互动功能"盘点派对"

英国SAP用户因商业套件重启授权迷局感到困惑

AWS发布Graviton5定制CPU，为云工作负载带来强劲性能

美光放弃Crucial品牌：告别消费级存储市场

手机里的NPU越来越强，为什么AI体验还在原地踏步？

如何使用现有基础设施让数据做好AI准备

IT领导者快问快答：思科光网络公司首席数字信息官Craig Williams分享AI转型经验

Anthropic CEO警告AI行业泡沫化，批评"YOLO"式投资

雅虎利用AI实时总结橄榄球比赛精彩内容

押注AI智能体，奇奇科技跨越十年的“换挡”与远航

联想天禧AI及创新终端设备在2025 AIE博览会获两项大奖，引领个人AI体验创新

沃尔玛AI安全堆栈内幕：初创思维强化企业级防护

生成式AI正在重塑社交媒体营销，人机平衡成关键

微软AI高管称研究AI意识问题是"危险的"

谷歌AI搜索模式全球扩展推出智能体预订功能

PCIe 7.0和8.0标准即将到来，超高速连接2028年实现

基于事件驱动的智能体AI重塑企业资源规划系统

机器人软件创企FieldAI获4.05亿美元融资

Epic发布医疗智能体系统重新定义健康产业生态

GPT-4o开启太空舱门：AI Space Cortex让航天器具备自主运行能力

DeepSeek发布V3.1版本，为国产新一代芯片做好准备

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: