DDN发布了性能基准测试结果,显示其通过独特的中间KV缓存处理方式,能够将AI处理时间提速27倍。
当大语言模型或智能体在GPU上进行训练或推理工作时,会将现有和新计算的向量以键值对形式存储在内存缓存中,即KV缓存。在GPU服务器中,这种缓存可以分为两个内存层级:GPU的HBM和CPU的DRAM。当更多数据进入KV缓存时,现有数据会被驱逐。如果后续需要这些数据,要么重新计算,要么从外部存储(如本地附加的SSD或网络附加存储)中检索,后者通常比重新计算向量更快。避免KV缓存驱逐和向量重计算已成为AI训练存储供应商的基本要求,DDN、Hammerspace、VAST和WEKA都是相关厂商的例子。
DDN首席技术官Sven Oehme表示:"每当你的AI系统重新计算上下文而不是缓存它时,你就在支付GPU税——浪费本可以用来加速结果或服务更多用户的计算周期。通过DDN Infinia,我们将这个成本中心转化为性能优势。"
Infinia是DDN历时数年从头设计的对象存储系统。它提供亚毫秒级延迟,支持每秒超过100,000次AI调用,专为英伟达的H100、GB200和Bluefield DPU而构建。DDN提醒我们,英伟达曾表示智能体AI工作负载需要比传统模型多100倍的计算量。随着上下文窗口从128,000个Token扩展到超过100万个,GPU基础设施的负担急剧增加——除非有效部署KV缓存策略。
该公司表示,传统的重计算方法处理112,000个Token的任务需要57秒的处理时间。Token是向量的前身,其数量表明AI处理作业的范围。当使用DDN的Infinia存储运行相同作业时,处理时间降至2.1秒,实现27倍提速。DDN声称Infinia可以"将输入Token成本降低多达75%。对于运行1,000个并发AI推理管道的企业来说,这意味着每天可节省多达80,000美元的GPU成本——当乘以数千次交互和24/7运营时,这是一个惊人的数字。"
DDN首席执行官兼联合创始人Alex Bouzari表示:"在AI领域,速度不仅关乎性能,更关乎经济效益。DDN使组织能够在AI管道的每个步骤中更快、更智能、更具成本效益地运营。"
目前尚不清楚DDN的实施方案与Hammerspace、VAST Data和WEKA的解决方案相比如何,因为比较基准测试尚未公开。我们推测,随着KV缓存成为基本要求,Cloudian、戴尔、IBM、HPE、日立万塔拉、NetApp、PEAK:AIO和Pure Storage等供应商将使用英伟达的Dynamo卸载引擎添加KV缓存支持。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。