据研究机构Silicon Angle报告,生成式AI浪潮正在推动数据中心从传统架构向加速型、高扩展性架构演进,并配备智能体控制平面。
这些新型数据中心被称为AI工厂,数据中心技术栈正在"从以通用CPU为中心的系统转向以GPU为中心的加速计算,为并行操作进行优化,专门为人工智能而构建"。
之所以发生这种转变,是因为传统数据中心无法支持生成式AI工作负载和为大规模AI吞吐量构建的自动化治理数据平面。这些工作负载需要AI工厂来"通过自动化的端到端流程将原始数据转换为多样化的AI输出——例如文本、图像、代码、视频和Token"。这些流程集成了数据管道、模型训练、推理、部署、监控和持续改进,从而大规模生产智能。
分析师指出,在这类系统中,存储默认采用分解架构。"高性能I/O使用NVMe和并行文件系统进行检查点和分片读取。不太活跃的层级使用更便宜的对象存储来存储数据集、模型和制品;归档层保留血统和快照版本。超高性能数据移动器预取和暂存数据以保持GPU忙碌,优先处理小文件和元数据以保持数据流畅。"
大多数企业级组织不会构建自己的AI工厂。相反,"它们将使用由OpenAI、Anthropic PBC、其他AI实验室和云服务提供商构建的应用程序编程接口和软件"。Silicon Angle认为,"企业AI将通过API和连接器访问大型AI工厂,软件层隐藏了底层原语和工具的复杂性"。
这对本地AI工厂来说是一个不乐观的前景,基本上表明它们不会存在。不过,我们认为这里可能低估了对专有私有数据暴露的担忧,如果将通用AI训练排除在外,迷你AI工厂很可能会在企业级组织中存在。
从存储系统角度来看,哪些供应商在这样的AI工厂未来中处于有利地位?
DDN与英伟达和AI计算服务供应商深度合作,并拥有来自黑石的3亿美元私募股权资金用于AI相关开发。
戴尔拥有所需的所有硬件和AI数据平台,但缺乏分解存储。Project Lightning应该能解决这个问题。
NetApp通过其AFX分解阵列和AIDE软件回应了Silicon Angle的这一愿景。
HPE已经通过其Alletra Storage MP产品线采用分解存储,并拥有所需的计算和网络。但我们还没有看到AI数据栈。
日立万塔拉有AI相关产品新闻即将发布,这家企业存储供应商正在重新找回状态并快速收复失地。但还没有分解存储。
IBM这家主机锁定客户基础的供应商正在尽力搭乘AI列车。但还没有分解存储硬件。
Pure Storage通过FlashBlade//EXA采用了分解存储,并有AI聚焦的数据集管理理念。
VAST Data是AI工厂存储方法的先驱,拥有其AI OS和DASE存储。
VDURA表示其参与AI数据工厂游戏,并聘请并行文件系统开发者Garth Gibson担任首席技术和AI官员,重新发明用于AI的存储栈。
WEKA通过其Neural Mesh和增强内存网格提供所需的快速数据交付。但我们没有看到任何上层AI数据栈活动。
CTERA和Nasuni等云文件服务供应商正在竞相使用其存储数据来支持客户的AI数据管道。Cloudian、MinIO和Scality等对象存储供应商也在做同样的事情,S3-over-RDMA是关键基础功能,AI数据管道功能添加出现在它们的路线图中。
Cohesity、Commvault、Rubrik和Veeam等主要数据保护厂商正在添加AI数据管道功能以及强大的AI数据网络弹性。
软件定义存储供应商(没有硬件能力的)在试图采用分解存储硬件/软件栈时面临困难,因为它们无法访问分解的商品硬件。准确地说,它们可以轻松访问所需的计算服务器,但存储节点和连接它们到计算节点的基于商品的快速内部网络,以及所需的元数据控制软件,是完全不同的东西。
当然,它们可以采购NVMe闪存JBOD,安装支持RDMA的NIC,并获得快速网络交换机,但元数据软件是关键,绝对不简单。例如,Datacore收购了并行文件系统公司Arcastream和专注于AI边缘的HCI供应商Starwind。它正在整合AI积木块,但还没有完全成型的产品。
Q&A
Q1:什么是AI工厂?它与传统数据中心有何不同?
A:AI工厂是专门为人工智能工作负载设计的新型数据中心,采用以GPU为中心的加速计算架构,能够通过自动化端到端流程将原始数据转换为文本、图像、代码、视频等多样化AI输出,而传统数据中心主要以CPU为中心,无法支持大规模生成式AI工作负载。
Q2:分解存储架构在AI工厂中起什么作用?
A:在AI工厂中,存储采用分解架构,高性能I/O使用NVMe和并行文件系统进行检查点和分片读取,不太活跃的层级使用对象存储,归档层保留数据血统。超高性能数据移动器预取和暂存数据以保持GPU持续忙碌,确保数据流畅传输。
Q3:企业是否需要自建AI工厂?
A:大多数企业级组织不会构建自己的AI工厂,而是通过API和连接器访问OpenAI、Anthropic等公司构建的大型AI工厂服务。软件层会隐藏底层复杂性,让企业能够专注于业务应用而非基础设施建设。
好文章,需要你的鼓励
华盛顿大学Pedro Domingos教授提出的张量逻辑是一种革命性的AI编程语言,它通过将逻辑推理与张量代数在数学层面统一,实现了符号AI和神经网络的深度融合。该语言仅使用张量方程这一种构造,就能优雅地实现从Transformer到形式推理、从核机器到图模型等多种AI范式,更重要的是开辟了在嵌入空间中进行可靠推理的新方向,有望解决大型语言模型的幻觉和不透明性问题,成为推理、数学和编码模型的理想语言。
上海AI实验室等机构联合提出FrameThinker框架,革命性地改变了AI处理长视频的方式。该系统采用"侦探式"多轮推理,先快速扫描全视频获得概览,再有针对性地深入分析关键片段。通过两阶段训练和认知一致性验证,FrameThinker在多个视频理解基准测试中准确率平均提升10.4%,计算效率提高20倍以上,为AI视频理解领域带来突破性进展。
科技巨头IBM今日宣布推出新的区块链数字资产平台,专为金融机构和受监管企业设计。该平台名为"数字资产避风港",将为银行、企业和政府提供比特币、以太坊、稳定币和代币化资产的安全管理服务。平台由IBM与数字钱包基础设施提供商Dfns合作开发,支持超过40个公链和私链的全生命周期管理,并集成第三方身份验证和反洗钱合规工具。
复旦大学团队创建MedQ-Bench基准,首次系统评估AI模型医学影像质量评估能力。研究覆盖五大成像模式,设计感知-推理双层评估体系,意外发现医学专用AI表现不如通用AI。结果显示最佳AI模型准确率仅68.97%,远低于人类专家82.50%,揭示了AI在医学影像质控应用中的现实挑战和改进方向。