我们采访了DDN产品高级副总裁James Coomer和首席技术官Sven Oehme,深入了解了其相对较新的Infinia对象存储的发展状况,以及在性能、多租户和容灾方面的技术细节。
**Infinia发展现状**
James Coomer表示:"我们已经在生产环境中运行了相当长时间。v2.2版本即将发布,具备强大的多租户功能,包括安全性/容灾、性能和容量SLA。"
Infinia架构的核心是将一切构建在键值存储基础之上,这与其他系统采用块存储基础层、文件系统再加上对象导出器的架构截然不同。通过使用键值存储,系统能够将所有数据均匀分布在所有设备上,因为键和值非常容易分发。
该系统采用Beta Epsilon树数据结构,这是一种先进的键值存储,在读写操作之间实现了良好的平衡。与以往优化读取或写入的数据结构不同,这种架构使Infinia中的每个数据源都成为对等关系,而非层级关系。
**性能表现突出**
在性能方面,DDN传统上在吞吐量、IOPS和单线程吞吐量方面表现强劲。但Infinia还专注于另一个关键领域:列表性能、首字节时间和延迟。这在AI应用中尤为重要,比如RAG查询需要在毫秒内搜索大量知识库并找到相关内容。
Sven Oehme详细解释了性能优势:"AWS和其他对象存储通常将这些功能放在数据库中处理,即使在后台运行内存数据库,速度仍然不够快。而Infinia通过键值存储中的数据结构布局方式,能够自动索引、前缀处理和负载均衡所有创建的对象。"
在实际测试中,AWS对象列表性能约为每秒6,000个对象,而Infinia在生产环境中单线程可达80,000个对象每秒,多线程可达600,000个对象每秒,相比AWS快100倍。跨多个存储桶并行操作时,可达到每秒3,000万个对象的列表性能。
**延迟优势明显**
在延迟方面,AWS S3的首字节时间约为100毫秒,S3 Express约为10毫秒(成本高12倍),而在AWS虚拟机上部署的Infinia延迟约为1毫秒。从S3到Infinia,延迟改善了100倍,同时成本比AWS S3 Express更低。
James Coomer表示:"当我们谈论毫秒级的读写操作时,已经达到了文件系统延迟水平。现在可以在对象存储上运行非常交互式的工作负载,这在以前只能在文件系统上实现。"
**多租户架构创新**
Infinia的多租户功能允许系统根据租户和子租户完全分布数据资源。与传统方法中卷与特定租户直接关联不同,Infinia系统中没有这种关联。这意味着可以实现极端的资源分配,比如获得99%的性能但只占用1%的容量,或者只获得1%的性能但占用99%的容量。
系统支持基于SLA的管理,不仅针对性能和容量,还包括容灾能力。用户可以为关键数据设置跨站点故障保护,而对于非关键数据则可以选择本地存储以获得最高性能。
**容灾能力强大**
Sven Oehme介绍了容灾能力:"我们从能够承受多少故障的角度来讨论容灾。如果将Infinia系统部署在五个物理站点上,可以定义对于关键数据集需要承受站点故障。系统会自动应用足够宽泛的纠删码来覆盖站点故障,或者动态应用复制策略。"
**SLA管理机制**
在SLA处理方面,Infinia实现了优先级分配机制,支持多达64个独立的服务质量优先级别。系统提供三个预设默认值:高优先级、中优先级和低优先级。当高优先级工作负载运行时,它将获得最大可能的份额,其他工作负载仍能获得适当的资源分配而不会停滞。
**软件栈发展**
DDN正在转变其定位,不再仅仅是为HPC和AI站点提供最快的并行存储,而是在开发完整的软件栈。在AWS上构建的RAG管道演示中,通过使用GPU卸载优化的Milvus数据库和Infinia对象存储接口替换AWS服务,整个RAG管道速度提升了22倍,同时成本降低了60%以上。
**内置服务特性**
Infinia默认提供数据压缩功能,无需任何调整或配置。系统还会自动加密所有数据,如果没有硬件加密加速,则使用软件加密;如果有硬件支持,则使用硬件加密。
**未来发展路线**
James Coomer透露,DDN正在与英伟达合作开发多项功能,包括KB Cache支持和GPUDirect for Object支持。Infinia软件栈提供的软件开发工具包已经实现了数据传输的RDMA卸载功能,这正是GPUDirect for Object的主要特性。
这些技术创新表明,Infinia对象存储正在重新定义存储架构,特别是在AI和高性能计算领域,为用户提供了超越传统POSIX文件系统限制的解决方案。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。