Nvidia SCADA方案正在为AI推理工作负载引入GPU控制的存储IO,相比GPUDirect,它在小块传输方面将更加快速。
什么是SCADA技术
SCADA是Nvidia在"Storage-Next"架构中提出的术语,全称为Scaled Accelerated Data Access(规模化加速数据访问)。这是一种存储数据IO方案,GPU服务器中的GPU可以直接启动和控制存储IO。这与Nvidia现有的GPUDirect协议形成对比,后者用于加速存储IO。
在最初的设计中,GPU被x86服务器视为辅助加速器,服务器控制着数据的流入和流出,同时拥有IO的控制路径和数据路径。GPUDirect将数据路径从x86 CPU中分离出来,通过RDMA技术实现GPU内存与NVMe驱动器之间的直接数据传输,但CPU仍然控制着控制路径。而SCADA更进一步,将控制路径也从CPU中分离出来。
AI训练与推理的不同需求
AI训练通常需要大批量数据传输,传输的控制路径时间相对较小。而AI推理需要小块IO(小于4KB),每次传输的控制路径时间相对较大。Nvidia的研究发现,让GPU启动这类传输将减少时间并加速推理过程。SCADA正是这一发现的产物,Nvidia在2025年FMS论文中对此进行了详细讨论。
生态系统合作伙伴的支持
Nvidia正与存储生态系统合作伙伴合作,将使用SCADA的SSD和控制器产品化。SSD控制器制造商Marvell的闪存存储产品营销总监Chander Chadha表示:"AI基础设施的需求促使存储公司开发专门支持GPU的SSD、控制器、NAND等技术,重点是为AI推理提供更高的IOPS(每秒输入/输出操作次数),这将与CPU连接驱动器有根本不同,后者更关注延迟和容量。"
Chadha解释说:"GPU在SCADA框架内启动存储事务,该框架围绕内存语义构建",这意味着SSD控制器必须响应加载和存储请求。
他指出,当前的SSD在IOPS方面响应速度不够快,"对于小于4KB的数据集,导致PCIe总线利用率不足,使GPU缺乏数据并浪费周期。"GPU在推理工作负载中可能需要此类数据来维持超过1000个并行线程。相比之下,采用CPU启动传输的AI训练需要的并行线程较少。Chadha说:"GPU并行线程的数量要低得多——几十个对几千个——而且数据集规模更大。"
技术发展方向
更快的PCIe总线(如PCIe 6和7)将有所帮助,但SSD控制器也需要更新SCADA加速器功能和"针对较小负载的最佳纠错方案。"
Chadha预计将出现能够处理两种类型工作负载的SSD控制器,"能够同时处理PCIe和以太网流量。"他还表示,"预计未来将看到与高带宽闪存或CXL网络接口相关的工作。"
美光的SCADA实践
NAND和SSD供应商美光也积极参与SCADA开发。该公司推出了PCIe Gen 6 SSD——9650,具有"小块操作优化"功能。7.68TB型号可提供高达540万随机读取IOPS。美光在SC25展会上演示了44个这样的SSD,使用SCADA编程模型实现了2.3亿IOPS。
该设置使用连接到Broadcom PEX90000 PCIe Gen 6交换机的SSD,安装在H3 Platform Falcon 6048 PCIe Gen 6服务器中。该服务器包含三个Nvidia H100 PCIe Gen 5 GPU。
美光表示,该系统"展示了从1到44个SSD的线性扩展。"演示的2.3亿最大IOPS数字非常接近44个驱动器聚合的540万随机读取IOPS的理论最大值2.376亿。
美光总结道:"结合PCIe Gen6高性能SSD,这种SCADA架构实现了向量数据库、图神经网络和大规模推理流水线等工作负载的实时数据访问。"
补充说明
SCADA缩写传统上用于监督控制和数据采集,指的是遥测领域。Nvidia的用法虽然不同,但具有相似性。
Q&A
Q1:Nvidia SCADA技术相比GPUDirect有什么优势?
A:SCADA技术将存储控制路径也转移到GPU,而GPUDirect只转移了数据路径。对于AI推理中常见的小于4KB的小块数据传输,SCADA能够显著减少传输时间,提高推理速度,因为GPU可以直接启动和控制存储操作。
Q2:为什么AI推理和AI训练对存储IO的需求不同?
A:AI训练通常需要大批量数据传输,控制路径时间相对较小,并行线程数量较少(几十个)。而AI推理需要小块IO处理(小于4KB),每次传输的控制路径时间相对较大,需要维持超过1000个并行线程,因此对IOPS性能要求更高。
Q3:美光在SCADA技术演示中取得了什么成果?
A:美光使用44个PCIe Gen 6 SSD 9650,在H3 Platform Falcon 6048服务器上演示了2.3亿IOPS的性能,接近理论最大值2.376亿。这证明了SCADA架构能够实现从1到44个SSD的线性扩展,为向量数据库和大规模推理流水线提供实时数据访问。
好文章,需要你的鼓励
随着AI广泛应用推动数据中心建设热潮,运营商面临可持续发展挑战。2024年底美国已建成或批准1240个数据中心,能耗激增引发争议。除能源问题外,服务器和GPU更新换代产生的电子废物同样严重。通过采用模块化可修复系统、AI驱动资产跟踪、标准化数据清理技术以及与认证ITAD合作伙伴合作,数据中心可实现循环经济模式,在确保数据安全的同时减少环境影响。
剑桥大学研究团队首次系统探索AI在多轮对话中的信心判断问题。研究发现当前AI系统在评估自己答案可靠性方面存在严重缺陷,容易被对话长度而非信息质量误导。团队提出P(SUFFICIENT)等新方法,但整体问题仍待解决。该研究为AI在医疗、法律等关键领域的安全应用提供重要指导,强调了开发更可信AI系统的紧迫性。
超大规模云数据中心是数字经济的支柱,2026年将继续保持核心地位。AWS、微软、谷歌、Meta、甲骨文和阿里巴巴等主要运营商正积极扩张以满足AI和云服务需求激增,预计2026年资本支出将超过6000亿美元。然而增长受到电力供应、设备交付和当地阻力制约。截至2025年末,全球运营中的超大规模数据中心达1297个,总容量预计在12个季度内翻倍。
威斯康星大学研究团队开发出Prithvi-CAFE洪水监测系统,通过"双视觉协作"机制解决了AI地理基础模型在洪水识别上的局限性。该系统巧妙融合全局理解和局部细节能力,在国际标准数据集上创造最佳成绩,参数效率提升93%,为全球洪水预警和防灾减灾提供了更准确可靠的技术方案。