DDN发布了性能基准测试结果,显示其通过独特的中间KV缓存处理方式,能够将AI处理时间提速27倍。
当大语言模型或智能体在GPU上进行训练或推理工作时,会将现有和新计算的向量以键值对形式存储在内存缓存中,即KV缓存。在GPU服务器中,这种缓存可以分为两个内存层级:GPU的HBM和CPU的DRAM。当更多数据进入KV缓存时,现有数据会被驱逐。如果后续需要这些数据,要么重新计算,要么从外部存储(如本地附加的SSD或网络附加存储)中检索,后者通常比重新计算向量更快。避免KV缓存驱逐和向量重计算已成为AI训练存储供应商的基本要求,DDN、Hammerspace、VAST和WEKA都是相关厂商的例子。
DDN首席技术官Sven Oehme表示:"每当你的AI系统重新计算上下文而不是缓存它时,你就在支付GPU税——浪费本可以用来加速结果或服务更多用户的计算周期。通过DDN Infinia,我们将这个成本中心转化为性能优势。"
Infinia是DDN历时数年从头设计的对象存储系统。它提供亚毫秒级延迟,支持每秒超过100,000次AI调用,专为英伟达的H100、GB200和Bluefield DPU而构建。DDN提醒我们,英伟达曾表示智能体AI工作负载需要比传统模型多100倍的计算量。随着上下文窗口从128,000个Token扩展到超过100万个,GPU基础设施的负担急剧增加——除非有效部署KV缓存策略。
该公司表示,传统的重计算方法处理112,000个Token的任务需要57秒的处理时间。Token是向量的前身,其数量表明AI处理作业的范围。当使用DDN的Infinia存储运行相同作业时,处理时间降至2.1秒,实现27倍提速。DDN声称Infinia可以"将输入Token成本降低多达75%。对于运行1,000个并发AI推理管道的企业来说,这意味着每天可节省多达80,000美元的GPU成本——当乘以数千次交互和24/7运营时,这是一个惊人的数字。"
DDN首席执行官兼联合创始人Alex Bouzari表示:"在AI领域,速度不仅关乎性能,更关乎经济效益。DDN使组织能够在AI管道的每个步骤中更快、更智能、更具成本效益地运营。"
目前尚不清楚DDN的实施方案与Hammerspace、VAST Data和WEKA的解决方案相比如何,因为比较基准测试尚未公开。我们推测,随着KV缓存成为基本要求,Cloudian、戴尔、IBM、HPE、日立万塔拉、NetApp、PEAK:AIO和Pure Storage等供应商将使用英伟达的Dynamo卸载引擎添加KV缓存支持。
好文章,需要你的鼓励
本文探讨了AI发展的未来趋势,详细分析了六条有望实现通用人工智能(AGI)的技术路径。随着生成式AI和大语言模型面临发展瓶颈,业界开始将目光转向其他AI发展方向。这六条路径包括神经符号AI、神经形态AI、具身AI、多智能体AI、以人为中心的AI和量子AI。每种路径都有其独特优势和挑战,可能单独或组合推动AI进入下一个发展阶段,最终实现与人类智能相当的AGI系统。
约翰霍普金斯大学研究团队发现VAR模型的马尔可夫变体本质上是离散扩散模型,提出SRDD方法。通过应用扩散模型技术如分类器自由引导、令牌重采样等,SRDD相比VAR在图像质量上提升15-20%,同时具备更好的零样本性能。这项研究架起了自回归模型与扩散模型的理论桥梁,为视觉生成技术发展开启新方向。
培生公司第三季度销售增长加速,并预示年底表现更强劲,但其AI应用可能是更重要的发展。该公司虚拟学习部门销售额激增17%,学生注册人数攀升。培生运营的在线学校将AI工具嵌入课程材料中,公司表示有越来越多证据显示这些工具帮助学生取得更好成绩。公司推出了AI学习内容组合,包括AI素养模块和融合人工导师与AI学习工具的视频平台。
微软亚洲研究院推出CAD-Tokenizer技术,首次实现AI通过自然语言指令进行3D模型设计和编辑的统一处理。该技术通过专门的CAD分词器和原语级理解机制,让AI能像设计师一样理解设计逻辑,大幅提升了设计精度和效率,有望推动工业设计的民主化进程。