Qumulo为其云数据平台推出了三项全新的AI相关软件功能:Helios AI智能体、CloudConnectAI加速器和AI网络,旨在实现管理、AI数据选择和传输的自主化优化。
这一创新理念基于AI可以改善软件固有的监控和管理整个数据基础设施性能的能力,并能选择性地缓存数据并将其传输到GPU服务器,无需密切的系统管理员级别控制。Qumulo的云数据平台软件可以在本地运行,也可以在AWS、Azure和Google云中原生运行,为非结构化数据提供统一的全局命名空间。这形成了一个云数据结构,三项新功能都是AI数据供应链的重要组成部分。
首席执行官Doug Gourlay表示:"当今的企业需要的不仅仅是存储——他们需要能够思考、适应和加速的系统。Helios为我们的客户提供对整个数据生态系统的预测性感知,Qumulo CloudConnect让他们的数据在任何需要洞察的地方流动,而AI网络重新定义了性能的可能性。这是下一代推理基础设施的基础。"
Helios智能体架构与功能
Helios是一个AI智能体,通过系统级遥测数据进行训练——包括本地和Qumulo在AWS、Azure和Google云中的实例——能够对Qumulo非结构化数据环境进行自我管理、自我诊断和自我优化。它每天接收来自基础设施的计算、存储、云和网络层的数十亿个事件,并将它们放入统一模型中。
Helios能够寻找和识别新出现的异常情况,预测即将出现的容量或性能问题,并在问题发生之前自动生成规范性建议或修复工作流程来解决这些新生问题。可以将其视为Qumulo数据基础设施的一种接近自动驾驶的超级巡航控制系统。
Helios支持MCP协议,从而将其影响力扩展到Qumulo的合作伙伴生态系统,"允许外部智能体和编排框架参与同一推理结构,创建真正自主的数据平台。"
CloudConnect AI加速器优化数据传输
CloudConnect AI加速器专注于将数据从Qumulo云数据结构存储移动到GPU服务器,使用NeuralCache技术进行预测性缓存,将GPU数据加载时间减少高达64%。Qumulo表示,它可以在几分钟内部署到任何主要云、区域或可用性区域,并充当云数据结构的临时读/写辐条。
该系统可以根据需要从一个实例扩展到数百个实例,并动态优化数据路径,确保数据仅在需要时和需要的地方移动,具有最小延迟且无需手动编排。训练、推理和推理工作负载可以访问单一数据真实源,公司表示具有"严格的数据安全性、治理和控制。"
AI网络提升数据传输性能
AI网络引入了专为在GPU服务器上运行的AI训练、推理和推理工作负载调优的新数据移动器。这些数据移动器原生支持RDMA(远程直接内存访问)、基于融合以太网v2的RDMA(RoCEv2)和基于RDMA的NFS,基于RDMA的S3正在开发中。它们"在存储和加速计算集群之间提供接近内存带宽,显著减少大规模AI操作的延迟和CPU开销。"
这些数据移动器实现了"与Nvidia DGX、AMD Instinct和其他GPU丰富的计算基础设施的无缝集成。"
Qumulo的三项新功能从今天开始为特定客户提供预览版,并将在下个季度全面上市。在SC25展会的4407号展位将进行演示,Qumulo解决方案工程师可以为HPC和AI工作流程提供实践建议。
Q&A
Q1:Helios AI智能体是什么?它有什么功能?
A:Helios是Qumulo开发的AI智能体,通过系统级遥测数据训练,能够对非结构化数据环境进行自我管理、自我诊断和自我优化。它每天处理数十亿个事件,能识别异常情况,预测容量或性能问题,并自动生成修复建议。
Q2:CloudConnect AI加速器如何提升GPU数据处理效率?
A:CloudConnect AI加速器使用NeuralCache技术进行预测性缓存,将数据从云数据结构存储快速传输到GPU服务器,可将GPU数据加载时间减少高达64%。它能动态优化数据路径,确保数据仅在需要时移动,实现最小延迟。
Q3:AI网络功能支持哪些技术标准?
A:AI网络的数据移动器原生支持RDMA(远程直接内存访问)、RoCEv2(基于融合以太网v2的RDMA)和基于RDMA的NFS,基于RDMA的S3正在开发中。能够与Nvidia DGX、AMD Instinct等GPU计算基础设施无缝集成。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。