DDN发布了性能基准测试结果,显示其通过独特的中间KV缓存处理方式,能够将AI处理时间提速27倍。
当大语言模型或智能体在GPU上进行训练或推理工作时,会将现有和新计算的向量以键值对形式存储在内存缓存中,即KV缓存。在GPU服务器中,这种缓存可以分为两个内存层级:GPU的HBM和CPU的DRAM。当更多数据进入KV缓存时,现有数据会被驱逐。如果后续需要这些数据,要么重新计算,要么从外部存储(如本地附加的SSD或网络附加存储)中检索,后者通常比重新计算向量更快。避免KV缓存驱逐和向量重计算已成为AI训练存储供应商的基本要求,DDN、Hammerspace、VAST和WEKA都是相关厂商的例子。
DDN首席技术官Sven Oehme表示:"每当你的AI系统重新计算上下文而不是缓存它时,你就在支付GPU税——浪费本可以用来加速结果或服务更多用户的计算周期。通过DDN Infinia,我们将这个成本中心转化为性能优势。"
Infinia是DDN历时数年从头设计的对象存储系统。它提供亚毫秒级延迟,支持每秒超过100,000次AI调用,专为英伟达的H100、GB200和Bluefield DPU而构建。DDN提醒我们,英伟达曾表示智能体AI工作负载需要比传统模型多100倍的计算量。随着上下文窗口从128,000个Token扩展到超过100万个,GPU基础设施的负担急剧增加——除非有效部署KV缓存策略。
该公司表示,传统的重计算方法处理112,000个Token的任务需要57秒的处理时间。Token是向量的前身,其数量表明AI处理作业的范围。当使用DDN的Infinia存储运行相同作业时,处理时间降至2.1秒,实现27倍提速。DDN声称Infinia可以"将输入Token成本降低多达75%。对于运行1,000个并发AI推理管道的企业来说,这意味着每天可节省多达80,000美元的GPU成本——当乘以数千次交互和24/7运营时,这是一个惊人的数字。"
DDN首席执行官兼联合创始人Alex Bouzari表示:"在AI领域,速度不仅关乎性能,更关乎经济效益。DDN使组织能够在AI管道的每个步骤中更快、更智能、更具成本效益地运营。"
目前尚不清楚DDN的实施方案与Hammerspace、VAST Data和WEKA的解决方案相比如何,因为比较基准测试尚未公开。我们推测,随着KV缓存成为基本要求,Cloudian、戴尔、IBM、HPE、日立万塔拉、NetApp、PEAK:AIO和Pure Storage等供应商将使用英伟达的Dynamo卸载引擎添加KV缓存支持。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。