英伟达公司今日在圣何塞举行的GPU技术大会上宣布推出Dynamo 1.0,这是一个开源平台,英伟达将其定位为大规模AI部署的重要软件层,旨在推动新兴人工智能工厂趋势的发展。
这一发布旨在解决企业AI领域最棘手的问题之一:如何大规模高效运行日益复杂的生成式和智能体工作负载。
英伟达表示,推理的经济性正变得与原始模型性能同样重要。该公司超大规模和高性能计算副总裁Ian Buck称,公司看到了能够管理日益增长的AI复杂性的软件市场正在快速扩展。
他表示:"随着我们向复杂性阶梯上攀升,AI的价值和能力以及每百万Token的美元价值也在提升。像Dynamo这样的软件堆栈为Vera Rubin NVL72上的模型提供了提升,实现了每瓦特10倍的吞吐量,或者说Token成本降至十分之一。"
Vera Rubin NVL72是英伟达在1月份发布的新型机架规模AI超级计算机平台,专为处理大规模AI训练和推理而设计。
像Dynamo这样的平台对英伟达努力拓展业务范围至关重要,使其不仅仅是芯片、服务器和网络设备供应商,更成为编排整个数据中心AI基础设施所需操作软件的提供者。Dynamo可用于大规模生成式和智能体推理,并与众多流行的推理和编排框架集成。
Gartner公司专门研究智能体和AI基础设施、AI云和量子计算的分析师Chirag Dekate表示,开源Dynamo是英伟达"向上扩展护城河"的一个例子。
他说:"推理正在成为一个软件编排问题,因此谁能大规模管理路由、缓存和调度,谁就将塑造AI的经济性。通过开源Dynamo,英伟达正在进行经典的标准化策略:降低采用门槛,吸引生态系统合作伙伴,将其首选的运行时模型转变为市场的默认操作模型。"
智能体AI的崛起给基础设施和软件带来了新的复杂性和需求,因为新模型不仅与人类交互,还以远超人类交互所需速度的方式彼此交互。
英伟达将这些智能体需求称为超越预训练、后训练和测试时间扩展的"第四个扩展定律"。Buck说:"智能体不仅与人类对话,还与其他AI对话的场景,增加了对低延迟和大规模大上下文推理的需求。"
这种转变正在将基础设施需求推向简单聊天机器人工作负载之外。Buck说,智能体模型"需要以15倍的速度交付Token,模型规模要大10倍"。他表示,当前的1000亿参数模型很快将扩展到10万亿参数系统,处理每秒1500个Token。
Gartner的Dekate指出,Dynamo专注于最大化GPU集群的利用率以提高利用效率。他说:"新兴的推理模型、多模态工作负载和智能体系统正在使推理变得更加分布式、延迟敏感和成本敏感。"Dynamo的规划器监控预填充和解码活动并重新分配GPU资源,而智能路由器具备KV缓存感知能力,可以最大限度地减少重新计算。
Dynamo还融入了英伟达今日发布的更广泛的AI智能体软件堆栈。新的智能体工具包是"用于构建、评估和优化更安全、长期运行的自主智能体的开放模型、运行时和蓝图"的组合包,生成式AI软件高级副总裁Kari Briski表示。该工具包包括用于模型推理的英伟达推理微服务,以及用于大规模生产的Dynamo。
Q&A
Q1:Dynamo 1.0是什么?有什么主要功能?
A:Dynamo 1.0是英伟达推出的开源平台,专为大规模AI部署设计。它主要用于生成式和智能体推理,能够与多种流行的推理和编排框架集成,通过智能路由和资源分配来提高GPU利用率,实现更高效的AI工作负载管理。
Q2:为什么英伟达要开源Dynamo平台?
A:开源Dynamo是英伟达的战略布局,目的是降低采用门槛、吸引生态系统合作伙伴,将其运行时模型转变为市场默认标准。这有助于英伟达从硬件供应商转型为AI基础设施软件提供者,在推理经济性日益重要的背景下塑造AI市场格局。
Q3:智能体AI对基础设施有什么新要求?
A:智能体AI带来了"第四个扩展定律",要求基础设施支持AI之间的高速交互,不仅仅是人机交互。智能体模型需要15倍更快的Token交付速度和10倍更大的模型规模,未来将从1000亿参数扩展到10万亿参数系统,处理每秒1500个Token。
好文章,需要你的鼓励
谷歌近期悄然调整账户存储政策:新注册用户若未绑定手机号,免费存储空间将从原来的15GB缩减至5GB。用户需验证手机号后,方可获得完整的15GB空间,用于Gmail、Drive和Photos的共享使用。谷歌表示,此举旨在确保存储空间"每人仅限一份",有效防止滥用。有分析认为,存储硬件成本上升也是推动此次政策调整的重要原因之一。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
AT&T、Verizon和T-Mobile宣布计划组建合资企业,利用卫星技术消除美国境内的网络覆盖盲区,重点服务农村及网络欠发达地区。该合资企业将整合知识产权与地面频谱资源,推动下一代直连设备(D2D)通信发展。目前三方尚未签署正式协议,现有运营商与卫星服务协议不受影响。此前,T-Mobile已与SpaceX合作推出星链卫星服务,美国联邦通信委员会也刚批准了价值400亿美元的EchoStar频谱出售案。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。