我们采访了DDN产品高级副总裁James Coomer和首席技术官Sven Oehme,深入了解了其相对较新的Infinia对象存储的发展状况,以及在性能、多租户和容灾方面的技术细节。
**Infinia发展现状**
James Coomer表示:"我们已经在生产环境中运行了相当长时间。v2.2版本即将发布,具备强大的多租户功能,包括安全性/容灾、性能和容量SLA。"
Infinia架构的核心是将一切构建在键值存储基础之上,这与其他系统采用块存储基础层、文件系统再加上对象导出器的架构截然不同。通过使用键值存储,系统能够将所有数据均匀分布在所有设备上,因为键和值非常容易分发。
该系统采用Beta Epsilon树数据结构,这是一种先进的键值存储,在读写操作之间实现了良好的平衡。与以往优化读取或写入的数据结构不同,这种架构使Infinia中的每个数据源都成为对等关系,而非层级关系。
**性能表现突出**
在性能方面,DDN传统上在吞吐量、IOPS和单线程吞吐量方面表现强劲。但Infinia还专注于另一个关键领域:列表性能、首字节时间和延迟。这在AI应用中尤为重要,比如RAG查询需要在毫秒内搜索大量知识库并找到相关内容。
Sven Oehme详细解释了性能优势:"AWS和其他对象存储通常将这些功能放在数据库中处理,即使在后台运行内存数据库,速度仍然不够快。而Infinia通过键值存储中的数据结构布局方式,能够自动索引、前缀处理和负载均衡所有创建的对象。"
在实际测试中,AWS对象列表性能约为每秒6,000个对象,而Infinia在生产环境中单线程可达80,000个对象每秒,多线程可达600,000个对象每秒,相比AWS快100倍。跨多个存储桶并行操作时,可达到每秒3,000万个对象的列表性能。
**延迟优势明显**
在延迟方面,AWS S3的首字节时间约为100毫秒,S3 Express约为10毫秒(成本高12倍),而在AWS虚拟机上部署的Infinia延迟约为1毫秒。从S3到Infinia,延迟改善了100倍,同时成本比AWS S3 Express更低。
James Coomer表示:"当我们谈论毫秒级的读写操作时,已经达到了文件系统延迟水平。现在可以在对象存储上运行非常交互式的工作负载,这在以前只能在文件系统上实现。"
**多租户架构创新**
Infinia的多租户功能允许系统根据租户和子租户完全分布数据资源。与传统方法中卷与特定租户直接关联不同,Infinia系统中没有这种关联。这意味着可以实现极端的资源分配,比如获得99%的性能但只占用1%的容量,或者只获得1%的性能但占用99%的容量。
系统支持基于SLA的管理,不仅针对性能和容量,还包括容灾能力。用户可以为关键数据设置跨站点故障保护,而对于非关键数据则可以选择本地存储以获得最高性能。
**容灾能力强大**
Sven Oehme介绍了容灾能力:"我们从能够承受多少故障的角度来讨论容灾。如果将Infinia系统部署在五个物理站点上,可以定义对于关键数据集需要承受站点故障。系统会自动应用足够宽泛的纠删码来覆盖站点故障,或者动态应用复制策略。"
**SLA管理机制**
在SLA处理方面,Infinia实现了优先级分配机制,支持多达64个独立的服务质量优先级别。系统提供三个预设默认值:高优先级、中优先级和低优先级。当高优先级工作负载运行时,它将获得最大可能的份额,其他工作负载仍能获得适当的资源分配而不会停滞。
**软件栈发展**
DDN正在转变其定位,不再仅仅是为HPC和AI站点提供最快的并行存储,而是在开发完整的软件栈。在AWS上构建的RAG管道演示中,通过使用GPU卸载优化的Milvus数据库和Infinia对象存储接口替换AWS服务,整个RAG管道速度提升了22倍,同时成本降低了60%以上。
**内置服务特性**
Infinia默认提供数据压缩功能,无需任何调整或配置。系统还会自动加密所有数据,如果没有硬件加密加速,则使用软件加密;如果有硬件支持,则使用硬件加密。
**未来发展路线**
James Coomer透露,DDN正在与英伟达合作开发多项功能,包括KB Cache支持和GPUDirect for Object支持。Infinia软件栈提供的软件开发工具包已经实现了数据传输的RDMA卸载功能,这正是GPUDirect for Object的主要特性。
这些技术创新表明,Infinia对象存储正在重新定义存储架构,特别是在AI和高性能计算领域,为用户提供了超越传统POSIX文件系统限制的解决方案。
好文章,需要你的鼓励
阿里巴巴通义千问团队发布开源编程模型Qwen3-Coder-480B-A35B-Instruct,专门用于软件开发辅助。该模型采用混合专家架构,拥有4800亿参数,支持25.6万token上下文长度,可在数秒内创建完整功能应用。在SWE-bench基准测试中得分67.0%,表现优于GPT-4和Gemini。模型基于Apache 2.0开源许可,企业可免费使用。AI研究者称其可能是目前最佳编程模型,特别适合企业级代码库理解、自动化代码审查和CI/CD系统集成。
T-Tech公司研究团队开发了SAE Boost助推器系统,通过训练专门的"错误补偿器"来增强AI理解工具对专业领域的理解能力。该系统在化学、俄语和外交等领域测试中显示出显著改进效果,同时完全保持原有通用能力。这种模块化设计为AI系统的持续优化提供了安全可靠的路径,对AI可解释性研究具有重要意义。
SecurityPal成立于2020年,专门处理企业间技术采购中的安全合规问卷。该公司结合AI引擎与位于尼泊尔加德满都的240人分析师团队,帮助供应商和买方快速完成安全评估。平台维护着250万个安全问题的专有语料库,采用"人机协作"模式确保准确性。客户包括OpenAI、Figma等知名企业,服务承诺24小时内完成问卷处理,相比传统手动流程速度提升高达87倍。
斯坦福大学研究团队开发出革命性AI系统,能够像生物学家一样"看懂"蛋白质三维结构并预测功能。该系统通过多层次分析方法,在蛋白质功能预测方面达到90%以上准确率,为新药开发和精准医疗开辟新道路。这项技术不仅加速了蛋白质研究进程,更为解决复杂疾病提供了强大的AI助手,预示着人工智能与生物医学融合的美好前景。