DDN推出Infinia存储系统,声称可大幅提升AI推理速度并降低成本

DDN发布性能基准测试显示,其Infinia存储系统通过优化中间KV缓存处理,能够将AI处理速度提升27倍。该系统专为英伟达H100和GB200等GPU设计,提供亚毫秒级延迟,支持每秒超10万次AI调用。在112000令牌任务测试中,传统重计算方法需57秒,而Infinia仅需2.1秒。DDN称该技术可削减输入令牌成本75%,为运行1000个并发AI推理管道的企业每日节省8万美元GPU成本。

DDN发布了性能基准测试结果,显示其通过独特的中间KV缓存处理方式,能够将AI处理时间提速27倍。

当大语言模型或智能体在GPU上进行训练或推理工作时,会将现有和新计算的向量以键值对形式存储在内存缓存中,即KV缓存。在GPU服务器中,这种缓存可以分为两个内存层级:GPU的HBM和CPU的DRAM。当更多数据进入KV缓存时,现有数据会被驱逐。如果后续需要这些数据,要么重新计算,要么从外部存储(如本地附加的SSD或网络附加存储)中检索,后者通常比重新计算向量更快。避免KV缓存驱逐和向量重计算已成为AI训练存储供应商的基本要求,DDN、Hammerspace、VAST和WEKA都是相关厂商的例子。

DDN首席技术官Sven Oehme表示:"每当你的AI系统重新计算上下文而不是缓存它时,你就在支付GPU税——浪费本可以用来加速结果或服务更多用户的计算周期。通过DDN Infinia,我们将这个成本中心转化为性能优势。"

Infinia是DDN历时数年从头设计的对象存储系统。它提供亚毫秒级延迟,支持每秒超过100,000次AI调用,专为英伟达的H100、GB200和Bluefield DPU而构建。DDN提醒我们,英伟达曾表示智能体AI工作负载需要比传统模型多100倍的计算量。随着上下文窗口从128,000个Token扩展到超过100万个,GPU基础设施的负担急剧增加——除非有效部署KV缓存策略。

该公司表示,传统的重计算方法处理112,000个Token的任务需要57秒的处理时间。Token是向量的前身,其数量表明AI处理作业的范围。当使用DDN的Infinia存储运行相同作业时,处理时间降至2.1秒,实现27倍提速。DDN声称Infinia可以"将输入Token成本降低多达75%。对于运行1,000个并发AI推理管道的企业来说,这意味着每天可节省多达80,000美元的GPU成本——当乘以数千次交互和24/7运营时,这是一个惊人的数字。"

DDN首席执行官兼联合创始人Alex Bouzari表示:"在AI领域,速度不仅关乎性能,更关乎经济效益。DDN使组织能够在AI管道的每个步骤中更快、更智能、更具成本效益地运营。"

目前尚不清楚DDN的实施方案与Hammerspace、VAST Data和WEKA的解决方案相比如何,因为比较基准测试尚未公开。我们推测,随着KV缓存成为基本要求,Cloudian、戴尔、IBM、HPE、日立万塔拉、NetApp、PEAK:AIO和Pure Storage等供应商将使用英伟达的Dynamo卸载引擎添加KV缓存支持。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

07/21

16:52

分享

点赞

邮件订阅