WEKA正在通过其NeuralMesh Axon软件,将一组GPU服务器的本地SSD转换为统一的高性能存储池,以实现更快的AI训练和推理数据访问以及系统部署。
该公司正在将NeuralMesh功能从外部横向扩展存储服务器移植到GPU服务器内部的本地存储基础设施中。
NeuralMesh是一种外部横向扩展的文件和对象存储架构,为一组GPU服务器提供弹性和高性能存储。它是一种存储结构,在单一命名空间中跨所有节点分布数据和元数据,通过内置自愈功能动态平衡I/O,使用擦除编码、自动扩展和快速重建功能。
NeuralMesh Axon将这种架构扩展到GPU服务器中,作为容器化软件运行,利用它们的本地NVMe SSD、x86 CPU核心和DRAM以及网络接口卡。
WEKA首席产品官Ajay Singh在博客中写道:"这种统一的软件定义计算和存储层显著提高了训练工作负载的GPU利用率,增强了基础设施堆栈的整体经济性——特别是计算资源——同时提供了卓越的存储吞吐量和I/O性能。"
读写操作分布在GPU节点上,实现可扩展的线性性能。
Singh表示:"增强内存网格等补充功能通过解决延迟和内存障碍进一步放大推理性能,为大规模KV缓存负载提供接近内存的速度。它始终为本地和远程工作负载实现微秒级延迟,优于NFS等传统本地协议。"
它"为组织提供了在现有NVMe驱动器、CPU核心和网络资源上预定义资源分配的能力——将孤立的磁盘转换为类似内存的存储池,即使是最大的AI工作负载也能胜任。"客户可以预分配GPU服务器的CPU、内存、NVMe容量和网络接口卡,以保证一致的性能并防止噪声邻居效应。
他表示,当不同的GPU服务器需要访问相同数据集时,这种设计能够更好地应对,因为它避免了"在服务器之间拥有多个完整的数据副本,这会导致大量容量开销,同时在节点故障时性能急剧下降。"GPU服务器之间也不需要复制。
他说,由于NeuralMesh擦除编码,节点故障可以容忍多达四个同时故障。
WEKA表示,NeuralMesh Axon"在多个客户部署中实现了首Token性能20倍的改进,支持更大的上下文窗口,并显著提高了推理密集型工作负载的Token处理效率。此外,NeuralMesh Axon使客户能够动态调整计算和存储资源,并无缝支持即时训练和即时推理。"
它可以支持超过100台GPU服务器,并且比GPU + NeuralMesh或其他GPU服务器 + 外部存储配置部署更快。NeuralMesh Axon通过使用现有服务器资源,减少了本地数据中心所需的机架空间、电力和冷却要求,有助于降低基础设施成本和复杂性。
英伟达提供了支持性评论,其解决方案架构和工程副总裁Marc Hamilton表示:"通过优化大规模推理并在GPU附近嵌入超低延迟NVMe存储,组织可以释放更多带宽并扩展任何容量的GPU可用内存。"NeuralMesh Axon可以"为加速推理提供关键基础,同时以卓越的性能和成本效率实现下一代AI服务。"
AI模型开发商Cohere的工程副总裁Autumn Moulder表示:"将WEKA的NeuralMesh Axon嵌入我们的GPU服务器使我们能够最大化利用率并加速AI管道的每个步骤。性能提升是颠覆性的:过去需要五分钟的推理部署现在可以在15秒内完成,检查点速度提高了10倍。"
Cohere首席技术官兼联合创始人Peter Salanki表示:"通过WEKA的NeuralMesh Axon无缝集成到CoreWeave的AI云基础设施中,我们将处理能力直接带到数据,实现微秒级延迟,减少I/O等待时间,为单个GPU服务器提供超过30 GB/s的读取速度、12 GB/s的写入速度和100万IOPS。"
Cohere在公有云首次部署后,正在CoreWeave Cloud上部署NeuralMesh Axon。
NeuralMesh Axon支持主要的云GPU实例以及本地和混合部署。它适用于企业AI工厂、新云提供商和任何其他"超低延迟、高吞吐量和GPU原生存储集成至关重要的大语言模型或多模态模型部署"的100+GPU服务器部署。
NeuralMesh Axon目前为大规模企业AI和新云客户提供限量发布,计划于2025年秋季正式上市。更多信息请参阅NeuralMesh Axon解决方案简介文档。
评论
值得了解DDN的Infinia及其擦除编码,并考虑它与WEKA的NeuralMesh的比较。Hammerspace的Tier Zero概念像WEKA的新软件一样使用GPU服务器的本地SSD,是另一个比较点。
第三个是VAST Data可以通过其VUA(VAST Undivided Attention)KVCache软件技术利用GPU服务器内的本地SSD。GPU服务器的SSD充当AI模型训练和推理Token的缓存层。
注释
WEKA指出,为了最大化NeuralMesh Axon的性能,大多数环境应该利用Kubernetes Operator——这对于需要高级数据保护和无缝编排的云和服务提供商部署来说是理想的。NeuralMesh Axon针对平衡资源使用进行了优化,每个NVMe驱动器约需4个CPU核心,每台服务器需要100 GB的大页面。高级网络(6个InfiniBand网卡用于东西向流量,2个以太网网卡用于南北向流量)确保后端流量永远不会中断GPU工作负载。对于大规模AI工厂,增强的数据保护(RAFT9 +4奇偶校验)和周到的故障域设计提供弹性和高效更新,同时保持同质硬件和缓冲节点确保平稳可靠的运行。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。