WEKA正在通过其NeuralMesh Axon软件,将一组GPU服务器的本地SSD转换为统一的高性能存储池,以实现更快的AI训练和推理数据访问以及系统部署。
该公司正在将NeuralMesh功能从外部横向扩展存储服务器移植到GPU服务器内部的本地存储基础设施中。
NeuralMesh是一种外部横向扩展的文件和对象存储架构,为一组GPU服务器提供弹性和高性能存储。它是一种存储结构,在单一命名空间中跨所有节点分布数据和元数据,通过内置自愈功能动态平衡I/O,使用擦除编码、自动扩展和快速重建功能。
NeuralMesh Axon将这种架构扩展到GPU服务器中,作为容器化软件运行,利用它们的本地NVMe SSD、x86 CPU核心和DRAM以及网络接口卡。
WEKA首席产品官Ajay Singh在博客中写道:"这种统一的软件定义计算和存储层显著提高了训练工作负载的GPU利用率,增强了基础设施堆栈的整体经济性——特别是计算资源——同时提供了卓越的存储吞吐量和I/O性能。"
读写操作分布在GPU节点上,实现可扩展的线性性能。
Singh表示:"增强内存网格等补充功能通过解决延迟和内存障碍进一步放大推理性能,为大规模KV缓存负载提供接近内存的速度。它始终为本地和远程工作负载实现微秒级延迟,优于NFS等传统本地协议。"
它"为组织提供了在现有NVMe驱动器、CPU核心和网络资源上预定义资源分配的能力——将孤立的磁盘转换为类似内存的存储池,即使是最大的AI工作负载也能胜任。"客户可以预分配GPU服务器的CPU、内存、NVMe容量和网络接口卡,以保证一致的性能并防止噪声邻居效应。
他表示,当不同的GPU服务器需要访问相同数据集时,这种设计能够更好地应对,因为它避免了"在服务器之间拥有多个完整的数据副本,这会导致大量容量开销,同时在节点故障时性能急剧下降。"GPU服务器之间也不需要复制。
他说,由于NeuralMesh擦除编码,节点故障可以容忍多达四个同时故障。
WEKA表示,NeuralMesh Axon"在多个客户部署中实现了首Token性能20倍的改进,支持更大的上下文窗口,并显著提高了推理密集型工作负载的Token处理效率。此外,NeuralMesh Axon使客户能够动态调整计算和存储资源,并无缝支持即时训练和即时推理。"
它可以支持超过100台GPU服务器,并且比GPU + NeuralMesh或其他GPU服务器 + 外部存储配置部署更快。NeuralMesh Axon通过使用现有服务器资源,减少了本地数据中心所需的机架空间、电力和冷却要求,有助于降低基础设施成本和复杂性。
英伟达提供了支持性评论,其解决方案架构和工程副总裁Marc Hamilton表示:"通过优化大规模推理并在GPU附近嵌入超低延迟NVMe存储,组织可以释放更多带宽并扩展任何容量的GPU可用内存。"NeuralMesh Axon可以"为加速推理提供关键基础,同时以卓越的性能和成本效率实现下一代AI服务。"
AI模型开发商Cohere的工程副总裁Autumn Moulder表示:"将WEKA的NeuralMesh Axon嵌入我们的GPU服务器使我们能够最大化利用率并加速AI管道的每个步骤。性能提升是颠覆性的:过去需要五分钟的推理部署现在可以在15秒内完成,检查点速度提高了10倍。"
Cohere首席技术官兼联合创始人Peter Salanki表示:"通过WEKA的NeuralMesh Axon无缝集成到CoreWeave的AI云基础设施中,我们将处理能力直接带到数据,实现微秒级延迟,减少I/O等待时间,为单个GPU服务器提供超过30 GB/s的读取速度、12 GB/s的写入速度和100万IOPS。"
Cohere在公有云首次部署后,正在CoreWeave Cloud上部署NeuralMesh Axon。
NeuralMesh Axon支持主要的云GPU实例以及本地和混合部署。它适用于企业AI工厂、新云提供商和任何其他"超低延迟、高吞吐量和GPU原生存储集成至关重要的大语言模型或多模态模型部署"的100+GPU服务器部署。
NeuralMesh Axon目前为大规模企业AI和新云客户提供限量发布,计划于2025年秋季正式上市。更多信息请参阅NeuralMesh Axon解决方案简介文档。
评论
值得了解DDN的Infinia及其擦除编码,并考虑它与WEKA的NeuralMesh的比较。Hammerspace的Tier Zero概念像WEKA的新软件一样使用GPU服务器的本地SSD,是另一个比较点。
第三个是VAST Data可以通过其VUA(VAST Undivided Attention)KVCache软件技术利用GPU服务器内的本地SSD。GPU服务器的SSD充当AI模型训练和推理Token的缓存层。
注释
WEKA指出,为了最大化NeuralMesh Axon的性能,大多数环境应该利用Kubernetes Operator——这对于需要高级数据保护和无缝编排的云和服务提供商部署来说是理想的。NeuralMesh Axon针对平衡资源使用进行了优化,每个NVMe驱动器约需4个CPU核心,每台服务器需要100 GB的大页面。高级网络(6个InfiniBand网卡用于东西向流量,2个以太网网卡用于南北向流量)确保后端流量永远不会中断GPU工作负载。对于大规模AI工厂,增强的数据保护(RAFT9 +4奇偶校验)和周到的故障域设计提供弹性和高效更新,同时保持同质硬件和缓冲节点确保平稳可靠的运行。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。