英伟达通过推出新的推理上下文内存存储平台(ICMSP),解决了日益增长的KV缓存容量限制问题,将推理上下文标准化卸载到NVMe SSD中。这一方案在CES 2026上发布,可将GPU KV缓存扩展到基于NVMe的存储设备,并得到英伟达NVMe存储合作伙伴的支持。
KV缓存容量挑战与解决方案
在大语言模型推理过程中,KV缓存存储上下文数据,即表示模型处理输入时Token之间关系的键值对。随着推理的进行,新Token参数的生成使上下文数据不断增长,经常超出可用GPU内存容量。当较旧的条目被清除后又需要重新使用时,必须重新计算,这会增加延迟。智能体AI和长上下文工作负载通过扩大必须保留的上下文量而加剧了这个问题。ICMSP旨在通过将基于NVMe的KV缓存纳入上下文内存地址空间并在推理运行中保持持久化来缓解这一问题。
英伟达首席执行官兼创始人黄仁勋表示:"人工智能正在彻底改变整个计算堆栈,现在还包括存储。AI不再是一次性聊天机器人,而是理解物理世界、进行长期推理、以事实为基础、使用工具完成实际工作并保持短期和长期记忆的智能协作者。通过BlueField-4,英伟达及我们的软件和硬件合作伙伴正在为AI的下一个前沿重新设计存储堆栈。"
在CES演示中,他表示通过BlueField-4,机架中就有KV缓存上下文内存存储。
技术架构与管理挑战
随着AI模型扩展到数万亿参数和多步推理,它们会生成大量上下文数据,同时会有许多这样的模型同时运行。KV缓存软件ICMSP必须适用于GPU、GPU服务器以及GPU服务器机架,这些设备可能同时运行多个不同的推理工作负载。每个模型/智能体工作负载的参数集都必须被管理并提供给在正确GPU中运行的相应AI模型或智能体,随着作业调度的变化,这些可能会发生改变。这意味着存在KV缓存上下文元数据管理任务。
英伟达表示,ICMSP提升了KV缓存容量,并加速了机架级AI系统集群间的上下文共享。多轮AI智能体的持久化上下文提高了响应速度,增加了AI工厂吞吐量,并支持长上下文、多智能体推理的高效扩展。
硬件支持与性能提升
ICMSP依赖于Rubin GPU集群级缓存容量和英伟达即将推出的BlueField-4 DPU,该DPU配备Grace CPU,吞吐量可达800 Gbps。BlueField-4将提供并管理硬件加速缓存放置,以消除元数据开销、减少数据移动并确保GPU节点的安全隔离访问。英伟达的软件产品,如DOCA框架、Dynamo KV缓存卸载引擎以及包含的NIXL(英伟达推理传输库)软件,提供AI节点间KV缓存的智能加速共享。
Dynamo在内存和存储层次结构中工作,从GPU的HBM,通过GPU服务器CPU的DRAM,到直连NVMe SSD和网络化外部存储。还需要英伟达的Spectrum-X以太网,为基于RDMA的AI原生KV缓存访问提供高性能网络架构。英伟达表示,总体而言,ICMSP将提供比传统存储高5倍的功效,并实现高达5倍的每秒Token数。
合作伙伴生态与市场前景
英伟达列出了许多将在2026年下半年支持ICMSP与BlueField-4的存储合作伙伴。初始合作伙伴名单包括AIC、Cloudian、DDN、戴尔科技、HPE、日立万塔拉、IBM、Nutanix、Pure Storage、超微、VAST Data和WEKA。预计NetApp、联想和Hammerspace也将加入其中。
行业评价与技术对比
将KV缓存卸载或扩展到NVMe SSD的一般架构理念已经由多家公司实现,例如Hammerspace的Tier zero技术、VAST Data的开源VAST Undivided Attention(VUA)软件,以及WEKA的增强内存网格。戴尔也通过集成LMCache和NIXL等技术与三个存储引擎,为其PowerScale、ObjectScale和Project Lightning(私有预览)存储提供KV缓存卸载。
这些都是BlueField-3时代的产品。实际上,英伟达现在旨在为所有存储合作伙伴提供标准化的KV缓存内存扩展框架。戴尔、IBM、VAST和WEKA已经表示将支持ICMSP。WEKA的博客文章《上下文时代已经开始》解释了它将如何做到这一点以及原因。文章指出,ICMSP是"一类新的AI原生基础设施,旨在将推理上下文视为一等平台资源。这种架构方向与WEKA的增强内存网格一致,后者扩展了GPU内存以实现大规模的无限、快速、高效、可重复使用的上下文。"
WEKA产品营销副总裁Jim Sherhart表示:"应用为长期数据设计的重量级持久性、复制和元数据服务会带来不必要的开销,增加延迟和功耗,同时降低推理经济性。推理上下文仍然需要适当的控制,但它的行为不像企业数据,也不应该被强制通过企业存储语义。传统协议和数据服务引入的开销(元数据路径、小IO放大、持久性/复制默认值、在错误位置应用的多租户控制)可能将'快速上下文'变成'慢速存储'。当上下文对性能至关重要且频繁重复使用时,这种开销会立即表现为更高的尾延迟、更低的吞吐量和更差的效率。"
VAST Data表示,其存储/AI操作系统(AI OS)将在BlueField-4处理器上运行,"折叠传统存储层次,为长上下文、多轮和多智能体推理提供共享的、Pod级KV缓存和确定性访问。"
VAST全球技术联盟副总裁John Mao表示:"推理正在成为一个内存系统,而不是计算作业。获胜者不会是拥有最多原始计算能力的集群,而是能够以线速移动、共享和管理上下文的集群。连续性是新的性能前沿。如果上下文无法按需获得,GPU就会空闲,经济效益就会崩溃。通过在英伟达BlueField-4上运行VAST AI操作系统,我们正在将上下文转变为共享基础设施——默认快速,需要时策略驱动,并且在智能体AI扩展时保持可预测性。"
Q&A
Q1:ICMSP是什么?它能解决什么问题?
A:ICMSP是英伟达推出的推理上下文内存存储平台,主要解决大语言模型推理过程中KV缓存容量限制问题。它将GPU KV缓存扩展到NVMe存储设备,使上下文数据能够持久化保存,避免重复计算,降低推理延迟。
Q2:BlueField-4在ICMSP中扮演什么角色?
A:BlueField-4是英伟达即将推出的DPU,配备Grace CPU,吞吐量达800 Gbps。它为ICMSP提供硬件加速缓存放置,消除元数据开销,减少数据移动,并确保GPU节点的安全隔离访问,是整个系统的核心硬件支撑。
Q3:ICMSP能带来多大的性能提升?
A:据英伟达介绍,ICMSP能提供比传统存储高5倍的功效,并实现高达5倍的每秒Token处理数量。同时它还能提升KV缓存容量,加速集群间上下文共享,提高AI系统响应速度和吞吐量。
好文章,需要你的鼓励
人工智能和数据安全公司Cyera宣布完成4亿美元后期融资,估值达90亿美元。此轮F轮融资由贝莱德领投,距离上次融资仅6个月。随着95%的美国企业使用生成式AI,AI应用快速普及带来新的安全挑战。Cyera将数据安全态势管理、数据丢失防护和身份管理整合为单一平台,今年推出AI Guardian扩展AI安全功能。
上海AI实验室开发RePro训练方法,通过将AI推理过程类比为优化问题,教会AI避免过度思考。该方法通过评估推理步骤的进步幅度和稳定性,显著提升了模型在数学、科学和编程任务上的表现,准确率提升5-6个百分点,同时大幅减少无效推理,为高效AI系统发展提供新思路。
SAP在2026年全国零售联盟大展上发布了一系列新的人工智能功能,将规划、运营、履约和商务更紧密地集成到其零售软件组合中。这些更新旨在帮助零售商管理日益复杂的运营,应对客户参与向AI驱动发现和自动化决策的转变。新功能涵盖数据分析、商品销售、促销、客户参与和订单管理等领域,大部分功能计划在2026年上半年推出。
MIT团队开发的VLASH技术首次解决了机器人动作断续、反应迟缓的根本问题。通过"未来状态感知"让机器人边执行边思考,实现了最高2.03倍的速度提升和17.4倍的反应延迟改善,成功展示了机器人打乒乓球等高难度任务,为机器人在动态环境中的应用开辟了新可能性。