英伟达公司今日宣布在人工智能软件和网络创新方面取得重大进展,旨在加速AI基础设施建设和模型部署。
作为驱动AI经济发展的图形处理单元制造商,英伟达为其专门针对AI工作负载设计的Spectrum-X以太网交换平台推出了Spectrum-XGS"千兆级"技术。Spectrum-X能够连接数据中心内的整个集群,让海量数据集在AI模型间流动。而Spectrum-XGS则进一步扩展了这一能力,提供数据中心间的编排和互连功能。
"大家听过我们使用'向上扩展'和'向外扩展'这些术语。现在我们引入一个新概念——'跨域扩展',"英伟达加速计算产品总监戴夫·萨尔瓦托表示。"这些交换机专门用于支持多站点规模扩展,让不同数据中心能够相互通信,本质上就像一个超大GPU。"
在数据中心应用方面,"向上扩展"意味着更大的机器,"向外扩展"指的是数据中心内更多的机器。然而,许多数据中心在功耗或散热能力方面存在限制,超过阈值就会影响效率。这限制了特定位置可部署的机器数量或计算能力。
萨尔瓦托表示,该系统能最大程度降低抖动和延迟——即数据包到达时间的变化和发送数据与接收响应之间的延迟。这两个因素在AI网络中至关重要,因为它们决定了跨站点分布的GPU之间能够实现的带宽。
相比之下,英伟达在5月发布的网络结构技术NVLink Fusion,允许云服务提供商扩展数据中心规模,同时处理数百万个GPU。NVLink Fusion和Spectrum-XGS共同构成了AI基础设施扩展的两个层次:数据中心内部扩展和跨多个数据中心扩展。
推理服务方法的研究突破
Dynamo是英伟达的推理服务框架,负责模型部署和知识处理。
英伟达一直在研究如何使用该平台通过名为"分离式服务"的专门技术来部署模型。这种技术将"预填充"(上下文构建)和"解码"(Token生成)分配到不同的GPU或服务器上。
这点非常重要,因为推理服务曾经被认为是模型训练的次要任务,但在智能体AI时代已成为严峻挑战,推理模型生成的Token数量远超早期模型。Dynamo正是英伟达针对这一问题的解决方案,提供更快、更高效、更具成本效益的处理方式。
"以GPT OSS这样的模型交互性为例——这是OpenAI刚发布的最新社区模型,我们能够实现每秒Token数量约4倍的提升,"萨尔瓦托说道。"在DeepSeek上,我们也取得了显著改进,实现了2.5倍的性能提升。"
英伟达还在研究"推测解码"技术,使用第二个较小的模型来猜测主模型对给定提示的输出,以此加速处理过程。"这种技术的工作原理是使用所谓的草稿模型,这是一个较小的模型,试图生成潜在的下一个Token,"萨尔瓦托解释道。
由于较小的模型速度更快但准确性较低,它可以生成多个猜测供主模型验证。
"这里的关键在于,草稿模型推测性地正确猜中下一个Token的次数越多,就能获得越多的性能提升,"萨尔瓦托解释说。"我们已经看到使用这些技术能带来约35%的性能提升。"
据萨尔瓦托介绍,主要的AI模型会根据其学习到的概率分布并行进行验证。只有被接受的Token才会被提交,被拒绝的Token则被丢弃。这将延迟控制在200毫秒以内,他称之为"快速且交互性强"。
Q&A
Q1:Spectrum-XGS技术是什么?它有什么作用?
A:Spectrum-XGS是英伟达为Spectrum-X以太网交换平台推出的"千兆级"技术,专门针对AI工作负载设计。它能提供数据中心间的编排和互连功能,让不同数据中心相互通信,本质上就像一个超大GPU,实现"跨域扩展"。
Q2:Dynamo推理服务框架如何提升AI模型性能?
A:Dynamo通过分离式服务技术,将"预填充"和"解码"分配到不同GPU或服务器上。在GPT OSS模型上能实现每秒Token数量约4倍提升,在DeepSeek上实现2.5倍性能提升,为智能体AI时代提供更高效的处理方式。
Q3:推测解码技术的工作原理是什么?
A:推测解码使用较小的草稿模型来猜测主模型的输出,加速处理过程。草稿模型速度快但准确性低,能生成多个猜测供主模型验证。英伟达已通过这项技术实现约35%的性能提升,延迟控制在200毫秒以内。
好文章,需要你的鼓励
英特尔第三季度财报超华尔街预期,净收入达41亿美元。公司通过裁员等成本削减措施及软银、英伟达和美国政府的大额投资实现复苏。第三季度资产负债表增加200亿美元,营收增长至137亿美元。尽管财务表现强劲,但代工业务的未来发展策略仍不明朗,该业务一直表现不佳且面临政府投资条件限制。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。