如果说AI模型构建者和新兴云服务商在某个问题上达成一致,那就是他们都不想为存储问题而烦恼。超大规模云服务商和云构建者已经创建了自己独特的存储系统,认为自己已经掌握了所有知识。诚然,他们确实了解很多,比任何人都更了解自己的工作负载以及如何大规模运行,但他们并非无所不知。
因此,对于任何想在生成式AI革命中获得重大发展的新兴企业来说,可以说新兴云服务商和模型构建者是建立业务并获得超大规模云服务商和云构建者关注的最佳途径,因为他们设定了基础设施的条件,让其他人来搭建以供租用。
这就是为什么我们看到Vast Data、DataDirect Networks和WekaIO都在争夺与新兴云服务商和模型构建者的合作,Pure Storage甚至IBM的Spectrum Scale(原GPFS)也在竞争中。大型云服务商——亚马逊云服务、微软Azure和谷歌——都有面向HPC和AI工作负载的托管Lustre并行文件系统服务。虽然Oracle规模不及超大规模云服务商但比新兴云服务商更大,它也有自己的托管Lustre服务,同时还与WekaIO建立合作关系来对冲风险,吸引那些对Lustre已经厌烦的客户,因为Lustre以难以驾驭而闻名。
Vast Data与主要新兴云服务商建立了合作关系——CoreWeave、Crusoe、Lambda Labs、Nebius和Nscale——随着更多专业化和本地化的新兴云服务商的出现,无疑会有更多合作伙伴加入。
但从本周开始,CoreWeave已成为Vast Data的头号客户,其重要性甚至超过了为xAI在孟菲斯数据中心的"Colossus"GPU集群部署Vast Data存储。可以说,2024年底与xAI的交易是Vast Data的转折点,因为最初的Colossus系统拥有超过10万个英伟达"Hopper"H100 GPU,据报道还有远超1EB的闪存存储来训练xAI的Grok系列大语言模型。但Vast Data与CoreWeave签署的11.7亿美元协议将这一切提升到了新的高度。
关于这笔交易需要记住的是,它跨越多年——我们猜测是五年,但可能更短或更长,Vast Data没有透露具体信息——收入协议涵盖实现公司"通用存储"层的软件许可证,该存储层运行在分解式闪存服务器之上,以及更高级别的检查点、KV缓存、流处理、数据库和其他数据平台服务,这些构成了公司所谓的"AI操作系统",行业通常称之为数据平台。CoreWeave需要向OEM或ODM采购服务器、存储和网络硬件来运行Vast Data的软件,这意味着CoreWeave在数据平台方面的总投资价值达到数十亿美元。
某些厂商将获得大量配备闪存和CPU内核的服务器订单...
与横向扩展网络一样,存储在如今的AI集群预算中占比相对较小,但我们认为这种情况可能正在改变。正如我们本周早些时候在"AI基础设施支出的进一步上调预测"中指出的,我们分析了IDC最新的AI硬件、软件和服务支出预测,看起来只有1.9%的AI支出用于存储。这是2029年的数据,我们有足够的细节根据IDC关于其他领域和总体支出的信息做出猜测。这在我们看来似乎有点偏低,根据Vast Data联合创始人Jeff Denworth的说法,确实如此。
"我认为新兴云服务商的平均水平是3%到5%,"Denworth告诉The Next Platform。"原因是许多新兴云服务商没有一级云服务商通常具备的综合数据处理平台,后者构建了所有这些完善的数据服务。这是这些新兴云服务商喜欢Vast Data的原因之一,因为产品经理正在寻找销售不仅仅是按小时计费的浮点运算的方法。我们的能力让他们不必拼凑十几种不同的东西。"
作为一个案例,Denworth说他们正在与一个大型AI实验室(我们称之为模型构建者,但他不便透露具体是哪一家)合作,该实验室正在对一个流行的AI服务进行强化学习。该服务产生100 GB/秒的事件流,这对存储系统来说不算很大的I/O负载,但对Kafka流来说是很大的负载。在这种情况下,Kafka事件I/O如此密集,以至于无法构建足够大的Kafka集群来支持它,所以他们正在考虑开发自己的流处理系统。使用Vast Event Broker API更有意义,它让Kafka应用程序以为自己在与Kafka对话,但实际上只是通过兼容的API与原生底层通用、分解式、共享一切闪存阵列对话。在相同的服务器硬件上,Vast Event Broker可以处理10倍的Kafka流,正如公司在2月份推出这一AI操作系统层时告诉我们的。
Vast Data的另一个特性——快速检查点——将帮助新兴云服务商的任何客户避免原本非常昂贵的停机时间,当大型AI集群中的GPU、网卡或其他软件错误导致故障时。在AI训练运行中,当一个GPU无法进行数学运算时,训练运行就会完全停止。Vast Data能够支持KV缓存(提升AI推理性能)、数据库表(包括从输入Token创建的向量)、块存储或对象存储,这意味着像CoreWeave这样的新兴云服务商可以在同一个分解式存储上提供更多服务。
虽然没有具体说明,但这就是CoreWeave的计划,该公司几周前推出了一个对象存储平台,实际上将运行在Vast Data软件上。Denworth说,Vast Data和CoreWeave已经签署了两家公司工程团队之间的合作协议,以开发CoreWeave可以销售或捆绑在其产品中的服务,这预计将为Vast Data带来现有产品的改进或全新功能。
"我不会代表CoreWeave发言——这是他们的服务产品,"Denworth说。"但在工程层面,许多不同维度上都有大量积极的工作在进行。"
这让我们回到了五年前我们提出的观点,那是在生成式AI热潮发生之前的几年。我们当时就在争论,如果AI系统架构师希望提高这些极其昂贵的计算引擎的利用率,他们需要更多地思考存储以及将其连接到GPU计算引擎的网络。出于经济和技术原因,他们都需要这样做,因为数据中心中唯一与英伟达GPU一样昂贵的就是IBM Systems z大型机上的单个内核。考虑到GPU系统的高成本,没有人能承受GPU系统利用率不足的后果。IBM在这方面值得称赞,因为大多数大型机用户连续多年运行在98%以上的CPU利用率而不停机,这是因为辅助I/O子系统非常宽广和快速,与"主机"中的内存和计算子系统以及在这些大型铁器上使用的I/O密集型批处理和OLTP工作负载精确匹配。
随着GPU系统的纵向扩展和横向扩展,对能够跟上步伐的存储的需求变得更加重要。
这就是为什么我们认为AI集群成本的3%到5%之间的数据平台支出似乎仍然是一个保守的估计。话虽如此,从现在到本十年末,基于英伟达联合创始人兼首席执行官黄仁勋在8月份宣传的最后一个数字,AI集群支出大约在3万亿到4万亿美元之间,3%到5%仍然是一个非常大的数字——五年内用于AI系统数据平台的支出在900亿美元到2000亿美元之间。根据IDC估计,整个OEM磁盘和闪存阵列市场今年将产生约352亿美元的收入,按照目前约2.5%的年增长率,从2025年到2030年(含)将达到2250亿美元的传统存储收入。因此,AI系统存储将占全球总存储收入的30%到50%,但AI存储支出仍将被AI计算支出完全超越。
除非情况发生变化,我们认为可能会如此。想象一下,如果有一个超融合平台将AI存储和AI计算真正地结合在同一个外壳下...
Q&A
Q1:Vast Data与CoreWeave签署的11.7亿美元协议具体包含什么内容?
A:这是一个多年期协议(估计为五年),涵盖Vast Data"通用存储"层的软件许可证,该层运行在分解式闪存服务器上,还包括检查点、KV缓存、流处理、数据库等数据平台服务。CoreWeave需要另外采购硬件来运行这些软件,总投资价值达数十亿美元。
Q2:为什么新兴云服务商在存储方面的支出比例会更高?
A:根据Vast Data联合创始人Jeff Denworth的说法,新兴云服务商的存储支出占比通常为3%到5%,比预测的1.9%更高。这是因为新兴云服务商缺乏一级云服务商那样的综合数据处理平台,需要通过Vast Data这样的解决方案避免拼凑十几种不同的技术。
Q3:Vast Data的技术相比传统解决方案有什么优势?
A:Vast Data提供多项关键优势:其Event Broker API在相同硬件上可处理10倍的Kafka流;快速检查点功能可避免GPU集群故障时的昂贵停机;支持KV缓存、数据库、块存储和对象存储等多种服务,让客户能在同一个分解式存储平台上提供更多服务。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。