WEKA将NeuralMesh移植到GPU服务器本地SSD

WEKA推出NeuralMesh Axon软件,将GPU服务器的本地SSD转变为统一的高性能存储池,以加速AI训练和推理数据访问。该技术将NeuralMesh功能从外部横向扩展存储服务器移植到GPU服务器内部存储基础设施中。通过容器化软件运行,利用本地NVMe SSD、CPU核心和内存,实现微秒级延迟性能,支持超过100台GPU服务器部署,显著提升GPU利用率。

WEKA正在通过其NeuralMesh Axon软件,将一组GPU服务器的本地SSD转换为统一的高性能存储池,以实现更快的AI训练和推理数据访问以及系统部署。

该公司正在将NeuralMesh功能从外部横向扩展存储服务器移植到GPU服务器内部的本地存储基础设施中。

NeuralMesh是一种外部横向扩展的文件和对象存储架构,为一组GPU服务器提供弹性和高性能存储。它是一种存储结构,在单一命名空间中跨所有节点分布数据和元数据,通过内置自愈功能动态平衡I/O,使用擦除编码、自动扩展和快速重建功能。

NeuralMesh Axon将这种架构扩展到GPU服务器中,作为容器化软件运行,利用它们的本地NVMe SSD、x86 CPU核心和DRAM以及网络接口卡。

WEKA首席产品官Ajay Singh在博客中写道:"这种统一的软件定义计算和存储层显著提高了训练工作负载的GPU利用率,增强了基础设施堆栈的整体经济性——特别是计算资源——同时提供了卓越的存储吞吐量和I/O性能。"

读写操作分布在GPU节点上,实现可扩展的线性性能。

Singh表示:"增强内存网格等补充功能通过解决延迟和内存障碍进一步放大推理性能,为大规模KV缓存负载提供接近内存的速度。它始终为本地和远程工作负载实现微秒级延迟,优于NFS等传统本地协议。"

它"为组织提供了在现有NVMe驱动器、CPU核心和网络资源上预定义资源分配的能力——将孤立的磁盘转换为类似内存的存储池,即使是最大的AI工作负载也能胜任。"客户可以预分配GPU服务器的CPU、内存、NVMe容量和网络接口卡,以保证一致的性能并防止噪声邻居效应。

他表示,当不同的GPU服务器需要访问相同数据集时,这种设计能够更好地应对,因为它避免了"在服务器之间拥有多个完整的数据副本,这会导致大量容量开销,同时在节点故障时性能急剧下降。"GPU服务器之间也不需要复制。

他说,由于NeuralMesh擦除编码,节点故障可以容忍多达四个同时故障。

WEKA表示,NeuralMesh Axon"在多个客户部署中实现了首Token性能20倍的改进,支持更大的上下文窗口,并显著提高了推理密集型工作负载的Token处理效率。此外,NeuralMesh Axon使客户能够动态调整计算和存储资源,并无缝支持即时训练和即时推理。"

它可以支持超过100台GPU服务器,并且比GPU + NeuralMesh或其他GPU服务器 + 外部存储配置部署更快。NeuralMesh Axon通过使用现有服务器资源,减少了本地数据中心所需的机架空间、电力和冷却要求,有助于降低基础设施成本和复杂性。

英伟达提供了支持性评论,其解决方案架构和工程副总裁Marc Hamilton表示:"通过优化大规模推理并在GPU附近嵌入超低延迟NVMe存储,组织可以释放更多带宽并扩展任何容量的GPU可用内存。"NeuralMesh Axon可以"为加速推理提供关键基础,同时以卓越的性能和成本效率实现下一代AI服务。"

AI模型开发商Cohere的工程副总裁Autumn Moulder表示:"将WEKA的NeuralMesh Axon嵌入我们的GPU服务器使我们能够最大化利用率并加速AI管道的每个步骤。性能提升是颠覆性的:过去需要五分钟的推理部署现在可以在15秒内完成,检查点速度提高了10倍。"

Cohere首席技术官兼联合创始人Peter Salanki表示:"通过WEKA的NeuralMesh Axon无缝集成到CoreWeave的AI云基础设施中,我们将处理能力直接带到数据,实现微秒级延迟,减少I/O等待时间,为单个GPU服务器提供超过30 GB/s的读取速度、12 GB/s的写入速度和100万IOPS。"

Cohere在公有云首次部署后,正在CoreWeave Cloud上部署NeuralMesh Axon。

NeuralMesh Axon支持主要的云GPU实例以及本地和混合部署。它适用于企业AI工厂、新云提供商和任何其他"超低延迟、高吞吐量和GPU原生存储集成至关重要的大语言模型或多模态模型部署"的100+GPU服务器部署。

NeuralMesh Axon目前为大规模企业AI和新云客户提供限量发布,计划于2025年秋季正式上市。更多信息请参阅NeuralMesh Axon解决方案简介文档。

评论

值得了解DDN的Infinia及其擦除编码,并考虑它与WEKA的NeuralMesh的比较。Hammerspace的Tier Zero概念像WEKA的新软件一样使用GPU服务器的本地SSD,是另一个比较点。

第三个是VAST Data可以通过其VUA(VAST Undivided Attention)KVCache软件技术利用GPU服务器内的本地SSD。GPU服务器的SSD充当AI模型训练和推理Token的缓存层。

注释

WEKA指出,为了最大化NeuralMesh Axon的性能,大多数环境应该利用Kubernetes Operator——这对于需要高级数据保护和无缝编排的云和服务提供商部署来说是理想的。NeuralMesh Axon针对平衡资源使用进行了优化,每个NVMe驱动器约需4个CPU核心,每台服务器需要100 GB的大页面。高级网络(6个InfiniBand网卡用于东西向流量,2个以太网网卡用于南北向流量)确保后端流量永远不会中断GPU工作负载。对于大规模AI工厂,增强的数据保护(RAFT9 +4奇偶校验)和周到的故障域设计提供弹性和高效更新,同时保持同质硬件和缓冲节点确保平稳可靠的运行。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

07/09

09:15

分享

点赞

邮件订阅