深入解析 Nvidia 的 AI 推理"操作系统"Dynamo

NVIDIA 在 GTC 大会上发布了 Dynamo 软件框架,这是一个专为解决大规模 AI 推理挑战而设计的开源系统。CEO 黄仁勋将其比作"AI 工厂的操作系统",它能够优化 TensorRT LLM 等推理引擎,实现跨多 GPU 的高效运行,显著提升推理性能和吞吐量,为企业级 AI 部署提供关键支持。

在本周的 GPU 技术大会 (GTC) 上,Nvidia 的 Blackwell Ultra 以及即将推出的 Vera 和 Rubin CPU 和 GPU 成为了讨论的焦点。但是这次年度开发者盛会最重要的公告之一可能并非芯片,而是一个名为 Dynamo 的软件框架,它旨在解决大规模 AI 推理的挑战。

在 GTC 舞台上宣布的 Dynamo 被 CEO Jensen Huang 描述为"AI 工厂的操作系统",并被比作引发工业革命的现实世界中的发电机。"发电机是启动上一次工业革命的第一个工具,"这位首席执行官说。"能源的工业革命——水进来,电出去。"

从本质上来说,这个开源推理套件旨在更好地优化推理引擎,如 TensorRT LLM、SGLang 和 vLLM,以便在大量 GPU 上尽可能快速高效地运行。

正如我们之前讨论过的,从模型中更快、更便宜地输出一个个 token,用户体验就会更好。

推理比表面看起来更难

从高层次看,LLM 输出性能可以分为两大类:预填充 (Prefill) 和解码 (Decode)。预填充取决于 GPU 的浮点矩阵数学加速器处理输入提示的速度。提示越长——比如一个摘要任务——这通常需要更长的时间。

另一方面,解码是大多数人与 LLM 性能相关联的部分,它等同于 GPU 能够多快地生成对用户提示的实际 token 响应。

只要你的 GPU 有足够的内存来容纳模型,解码性能通常是内存速度和你生成的 token 数量的函数。一个内存带宽为 8TB/s 的 GPU 将比一个 3.35TB/s 的 GPU 快两倍多地输出 token。

当你开始考虑为更多人提供更大的模型,以及更长的输入和输出序列(如你可能在 AI 研究助手或推理模型中看到的)时,事情开始变得复杂。

大型模型通常分布在多个 GPU 上,而实现这一点的方式可能对性能和吞吐量产生重大影响,这是 Huang 在他的主题演讲中详细讨论的内容。

从 Nvidia CEO Jensen Huang 主题演讲的这张幻灯片可以看出,根据模型分布方式的不同,推理性能可能有很大差异。该图表显示了单个用户的每秒 token 数与每兆瓦总体每秒 token 数之间的关系... 点击放大

"在帕累托前沿下有数百万个点,我们可以用来配置数据中心。我们可以以许多不同的方式并行化、拆分工作并分片工作,"他说。

他的意思是,根据模型的并行方式,你可能能够服务数百万并发用户,但每个用户只有 10 个 token/秒。同时,另一种组合可能只能处理几千个并发请求,但能在眨眼间生成数百个 token。

据 Huang 表示,如果你能找出在这条曲线上的哪个点,你的工作负载能提供理想的个体性能组合,同时也能实现最大可能的吞吐量,那么你就能为你的服务收取溢价,同时也能降低运营成本。我们想象这正是至少一些 LLM 提供商在将其生成式应用和服务扩展到越来越多客户时所面临的平衡挑战。

启动 Dynamo

据我们了解,在性能和吞吐量之间找到这种平衡点是 Dynamo 提供的关键能力之一。

除了为用户提供关于什么是专家、流水线或张量并行的理想组合的见解外,Dynamo 还将预填充和解码分离到不同的加速器上。

根据 Nvidia 的说法,Dynamo 中的 GPU 规划器会根据需求确定应该有多少加速器专用于预填充和解码。

然而,Dynamo 不仅仅是一个 GPU 分析器。该框架还包括提示路由功能,它可以识别并将重叠的请求引导到特定的 GPU 组,以最大化键值 (KV) 缓存命中的可能性。

如果你不熟悉,KV 缓存代表模型在任何给定时间的状态。因此,如果多个用户在短时间内询问类似的问题,模型可以从这个缓存中提取信息,而不必一次又一次地重新计算模型状态。

除了智能路由器外,Dynamo 还具有低延迟通信库,用于加速 GPU 到 GPU 的数据流,以及内存管理子系统,负责将 KV 缓存数据从 HBM 推送或拉取到系统内存或冷存储,以最大化响应性并最小化等待时间。

对于运行 Llama 模型的基于 Hopper 的系统,Nvidia 声称 Dynamo 可以有效地将推理性能提高一倍。同时,对于更大的 Blackwell NVL72 系统,GPU 巨头声称启用该框架后,DeepSeek-R1 比 Hopper 有 30 倍的优势。

广泛兼容性

虽然 Dynamo 显然针对 Nvidia 的硬件和软件栈进行了调优,但与它所取代的 Triton 推理服务器一样,该框架旨在与流行的模型服务软件库集成,如 vLLM、PyTorch 和 SGLang。

这意味着,如果你正在使用包含多个 AMD 或 Intel 加速器以及 Nvidia GPU 的异构计算环境,你不需要认证和维护另一个推理引擎,而是可以继续使用 vLLM 或 SGLang(如果你已经在使用这些)。

显然,Dynamo 不会与 AMD 或 Intel 硬件一起工作,但它将在任何 Nvidia GPU 上运行,追溯到 Ampere 架构。因此,如果你仍在使用一堆 A100,你仍然可以从 Nvidia 的新 AI 操作系统中受益。

Nvidia 已经在 GitHub 上发布了使用 Dynamo 的指南,并将提供该框架作为容器镜像——或称为 NIM——以便于部署。(R)

来源:The Register

0赞

好文章,需要你的鼓励

2025

03/24

15:50

分享

点赞

邮件订阅