生成式AI推动数据中心和存储架构深度变革

Silicon Angle研究显示,生成式AI浪潮正推动数据中心从传统架构向加速计算、高度可扩展的AI工厂转变。这些AI工厂采用GPU为核心的并行计算架构,配备分解式存储系统,通过高性能NVMe和并行文件系统实现数据流水线、模型训练和推理部署的端到端自动化处理。企业将主要通过API接口访问大型AI工厂服务,而非自建基础设施。

据研究机构Silicon Angle报告,生成式AI浪潮正在推动数据中心从传统架构向加速型、高扩展性架构演进,并配备智能体控制平面。

这些新型数据中心被称为AI工厂,数据中心技术栈正在"从以通用CPU为中心的系统转向以GPU为中心的加速计算,为并行操作进行优化,专门为人工智能而构建"。

之所以发生这种转变,是因为传统数据中心无法支持生成式AI工作负载和为大规模AI吞吐量构建的自动化治理数据平面。这些工作负载需要AI工厂来"通过自动化的端到端流程将原始数据转换为多样化的AI输出——例如文本、图像、代码、视频和Token"。这些流程集成了数据管道、模型训练、推理、部署、监控和持续改进,从而大规模生产智能。

分析师指出,在这类系统中,存储默认采用分解架构。"高性能I/O使用NVMe和并行文件系统进行检查点和分片读取。不太活跃的层级使用更便宜的对象存储来存储数据集、模型和制品;归档层保留血统和快照版本。超高性能数据移动器预取和暂存数据以保持GPU忙碌,优先处理小文件和元数据以保持数据流畅。"

大多数企业级组织不会构建自己的AI工厂。相反,"它们将使用由OpenAI、Anthropic PBC、其他AI实验室和云服务提供商构建的应用程序编程接口和软件"。Silicon Angle认为,"企业AI将通过API和连接器访问大型AI工厂,软件层隐藏了底层原语和工具的复杂性"。

这对本地AI工厂来说是一个不乐观的前景,基本上表明它们不会存在。不过,我们认为这里可能低估了对专有私有数据暴露的担忧,如果将通用AI训练排除在外,迷你AI工厂很可能会在企业级组织中存在。

从存储系统角度来看,哪些供应商在这样的AI工厂未来中处于有利地位?

DDN与英伟达和AI计算服务供应商深度合作,并拥有来自黑石的3亿美元私募股权资金用于AI相关开发。

戴尔拥有所需的所有硬件和AI数据平台,但缺乏分解存储。Project Lightning应该能解决这个问题。

NetApp通过其AFX分解阵列和AIDE软件回应了Silicon Angle的这一愿景。

HPE已经通过其Alletra Storage MP产品线采用分解存储,并拥有所需的计算和网络。但我们还没有看到AI数据栈。

日立万塔拉有AI相关产品新闻即将发布,这家企业存储供应商正在重新找回状态并快速收复失地。但还没有分解存储。

IBM这家主机锁定客户基础的供应商正在尽力搭乘AI列车。但还没有分解存储硬件。

Pure Storage通过FlashBlade//EXA采用了分解存储,并有AI聚焦的数据集管理理念。

VAST Data是AI工厂存储方法的先驱,拥有其AI OS和DASE存储。

VDURA表示其参与AI数据工厂游戏,并聘请并行文件系统开发者Garth Gibson担任首席技术和AI官员,重新发明用于AI的存储栈。

WEKA通过其Neural Mesh和增强内存网格提供所需的快速数据交付。但我们没有看到任何上层AI数据栈活动。

CTERA和Nasuni等云文件服务供应商正在竞相使用其存储数据来支持客户的AI数据管道。Cloudian、MinIO和Scality等对象存储供应商也在做同样的事情,S3-over-RDMA是关键基础功能,AI数据管道功能添加出现在它们的路线图中。

Cohesity、Commvault、Rubrik和Veeam等主要数据保护厂商正在添加AI数据管道功能以及强大的AI数据网络弹性。

软件定义存储供应商(没有硬件能力的)在试图采用分解存储硬件/软件栈时面临困难,因为它们无法访问分解的商品硬件。准确地说,它们可以轻松访问所需的计算服务器,但存储节点和连接它们到计算节点的基于商品的快速内部网络,以及所需的元数据控制软件,是完全不同的东西。

当然,它们可以采购NVMe闪存JBOD,安装支持RDMA的NIC,并获得快速网络交换机,但元数据软件是关键,绝对不简单。例如,Datacore收购了并行文件系统公司Arcastream和专注于AI边缘的HCI供应商Starwind。它正在整合AI积木块,但还没有完全成型的产品。

Q&A

Q1:什么是AI工厂?它与传统数据中心有何不同?

A:AI工厂是专门为人工智能工作负载设计的新型数据中心,采用以GPU为中心的加速计算架构,能够通过自动化端到端流程将原始数据转换为文本、图像、代码、视频等多样化AI输出,而传统数据中心主要以CPU为中心,无法支持大规模生成式AI工作负载。

Q2:分解存储架构在AI工厂中起什么作用?

A:在AI工厂中,存储采用分解架构,高性能I/O使用NVMe和并行文件系统进行检查点和分片读取,不太活跃的层级使用对象存储,归档层保留数据血统。超高性能数据移动器预取和暂存数据以保持GPU持续忙碌,确保数据流畅传输。

Q3:企业是否需要自建AI工厂?

A:大多数企业级组织不会构建自己的AI工厂,而是通过API和连接器访问OpenAI、Anthropic等公司构建的大型AI工厂服务。软件层会隐藏底层复杂性,让企业能够专注于业务应用而非基础设施建设。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

10/28

08:45

分享

点赞

邮件订阅