WEKA正在通过其NeuralMesh Axon软件,将一组GPU服务器的本地SSD转换为统一的高性能存储池,以实现更快的AI训练和推理数据访问以及系统部署。
该公司正在将NeuralMesh功能从外部横向扩展存储服务器移植到GPU服务器内部的本地存储基础设施中。
NeuralMesh是一种外部横向扩展的文件和对象存储架构,为一组GPU服务器提供弹性和高性能存储。它是一种存储结构,在单一命名空间中跨所有节点分布数据和元数据,通过内置自愈功能动态平衡I/O,使用擦除编码、自动扩展和快速重建功能。
NeuralMesh Axon将这种架构扩展到GPU服务器中,作为容器化软件运行,利用它们的本地NVMe SSD、x86 CPU核心和DRAM以及网络接口卡。
WEKA首席产品官Ajay Singh在博客中写道:"这种统一的软件定义计算和存储层显著提高了训练工作负载的GPU利用率,增强了基础设施堆栈的整体经济性——特别是计算资源——同时提供了卓越的存储吞吐量和I/O性能。"
读写操作分布在GPU节点上,实现可扩展的线性性能。
Singh表示:"增强内存网格等补充功能通过解决延迟和内存障碍进一步放大推理性能,为大规模KV缓存负载提供接近内存的速度。它始终为本地和远程工作负载实现微秒级延迟,优于NFS等传统本地协议。"
它"为组织提供了在现有NVMe驱动器、CPU核心和网络资源上预定义资源分配的能力——将孤立的磁盘转换为类似内存的存储池,即使是最大的AI工作负载也能胜任。"客户可以预分配GPU服务器的CPU、内存、NVMe容量和网络接口卡,以保证一致的性能并防止噪声邻居效应。
他表示,当不同的GPU服务器需要访问相同数据集时,这种设计能够更好地应对,因为它避免了"在服务器之间拥有多个完整的数据副本,这会导致大量容量开销,同时在节点故障时性能急剧下降。"GPU服务器之间也不需要复制。
他说,由于NeuralMesh擦除编码,节点故障可以容忍多达四个同时故障。
WEKA表示,NeuralMesh Axon"在多个客户部署中实现了首Token性能20倍的改进,支持更大的上下文窗口,并显著提高了推理密集型工作负载的Token处理效率。此外,NeuralMesh Axon使客户能够动态调整计算和存储资源,并无缝支持即时训练和即时推理。"
它可以支持超过100台GPU服务器,并且比GPU + NeuralMesh或其他GPU服务器 + 外部存储配置部署更快。NeuralMesh Axon通过使用现有服务器资源,减少了本地数据中心所需的机架空间、电力和冷却要求,有助于降低基础设施成本和复杂性。
英伟达提供了支持性评论,其解决方案架构和工程副总裁Marc Hamilton表示:"通过优化大规模推理并在GPU附近嵌入超低延迟NVMe存储,组织可以释放更多带宽并扩展任何容量的GPU可用内存。"NeuralMesh Axon可以"为加速推理提供关键基础,同时以卓越的性能和成本效率实现下一代AI服务。"
AI模型开发商Cohere的工程副总裁Autumn Moulder表示:"将WEKA的NeuralMesh Axon嵌入我们的GPU服务器使我们能够最大化利用率并加速AI管道的每个步骤。性能提升是颠覆性的:过去需要五分钟的推理部署现在可以在15秒内完成,检查点速度提高了10倍。"
Cohere首席技术官兼联合创始人Peter Salanki表示:"通过WEKA的NeuralMesh Axon无缝集成到CoreWeave的AI云基础设施中,我们将处理能力直接带到数据,实现微秒级延迟,减少I/O等待时间,为单个GPU服务器提供超过30 GB/s的读取速度、12 GB/s的写入速度和100万IOPS。"
Cohere在公有云首次部署后,正在CoreWeave Cloud上部署NeuralMesh Axon。
NeuralMesh Axon支持主要的云GPU实例以及本地和混合部署。它适用于企业AI工厂、新云提供商和任何其他"超低延迟、高吞吐量和GPU原生存储集成至关重要的大语言模型或多模态模型部署"的100+GPU服务器部署。
NeuralMesh Axon目前为大规模企业AI和新云客户提供限量发布,计划于2025年秋季正式上市。更多信息请参阅NeuralMesh Axon解决方案简介文档。
评论
值得了解DDN的Infinia及其擦除编码,并考虑它与WEKA的NeuralMesh的比较。Hammerspace的Tier Zero概念像WEKA的新软件一样使用GPU服务器的本地SSD,是另一个比较点。
第三个是VAST Data可以通过其VUA(VAST Undivided Attention)KVCache软件技术利用GPU服务器内的本地SSD。GPU服务器的SSD充当AI模型训练和推理Token的缓存层。
注释
WEKA指出,为了最大化NeuralMesh Axon的性能,大多数环境应该利用Kubernetes Operator——这对于需要高级数据保护和无缝编排的云和服务提供商部署来说是理想的。NeuralMesh Axon针对平衡资源使用进行了优化,每个NVMe驱动器约需4个CPU核心,每台服务器需要100 GB的大页面。高级网络(6个InfiniBand网卡用于东西向流量,2个以太网网卡用于南北向流量)确保后端流量永远不会中断GPU工作负载。对于大规模AI工厂,增强的数据保护(RAFT9 +4奇偶校验)和周到的故障域设计提供弹性和高效更新,同时保持同质硬件和缓冲节点确保平稳可靠的运行。
好文章,需要你的鼓励
TechCrunch Disrupt 2025 AI舞台将汇聚塑造科技未来的领军人物,顶尖风投将揭示在快速变化的AI领域获得融资的关键。来自Apptronik、ElevenLabs、Hugging Face、Runway等创新企业的领导者将分享前沿洞见,探讨AI如何重塑创意过程、改变物理世界、变革国防安全和重新定义人际关系。10月27-29日,五大主题舞台将在旧金山呈现科技创新的未来图景。
西班牙研究团队提出了一种创新的AI自我纠错方法SSC,让人工智能学会识别和修正规则中的漏洞。当AI发现自己在钻空子获得高分时,它会反思规则的合理性并主动改进。实验显示这种方法将AI的"钻空子"行为从50-70%降低到3%以下,同时提升了回答质量。这项技术有望让AI从被动执行指令转变为能够质疑和改进指令的智能协作伙伴。
英超联赛与微软达成五年战略合作伙伴关系,推出AI驱动的Premier League Companion服务,为全球球迷提供个性化体验。该服务利用Azure OpenAI技术,整合30多个赛季的统计数据、30万篇文章和9000个视频,帮助球迷发现和了解更多内容。未来还将为Fantasy Premier League引入个人助理经理功能,并通过Azure AI优化比赛直播体验和赛后分析。
这篇文章详细解析了Long、Shelhamer和Darrell在2015年CVPR会议上发表的开创性研究"全卷积网络用于语义分割"。文章以通俗易懂的方式,将这项复杂的技术比作艺术家的绘画过程,解释了如何让计算机不仅识别图像中有什么物体,还能精确标出每个物体的位置和边界。研究团队通过将传统分类网络改造为全卷积形式,并巧妙运用上采样和跳跃连接技术,实现了高效准确的像素级图像理解。这一突破为自动驾驶、医学影像和增强现实等领域带来了革命性变化,奠定了现代计算机视觉的重要基础。