Nvidia SCADA技术将存储控制路径转移至GPU

英伟达SCADA技术是一种新型存储数据IO方案，GPU可直接启动和控制存储IO操作。与现有GPUDirect协议不同，SCADA不仅接管数据路径，还控制IO控制路径。该技术特别适用于AI推理工作负载中小于4KB的小块数据传输，能显著提升处理速度。英伟达正与Marvell、美光等存储生态合作伙伴开发SCADA兼容的SSD和控制器产品。

Nvidia SCADA方案正在为AI推理工作负载引入GPU控制的存储IO，相比GPUDirect，它在小块传输方面将更加快速。

什么是SCADA技术

SCADA是Nvidia在"Storage-Next"架构中提出的术语，全称为Scaled Accelerated Data Access（规模化加速数据访问）。这是一种存储数据IO方案，GPU服务器中的GPU可以直接启动和控制存储IO。这与Nvidia现有的GPUDirect协议形成对比，后者用于加速存储IO。

在最初的设计中，GPU被x86服务器视为辅助加速器，服务器控制着数据的流入和流出，同时拥有IO的控制路径和数据路径。GPUDirect将数据路径从x86 CPU中分离出来，通过RDMA技术实现GPU内存与NVMe驱动器之间的直接数据传输，但CPU仍然控制着控制路径。而SCADA更进一步，将控制路径也从CPU中分离出来。

AI训练与推理的不同需求

AI训练通常需要大批量数据传输，传输的控制路径时间相对较小。而AI推理需要小块IO（小于4KB），每次传输的控制路径时间相对较大。Nvidia的研究发现，让GPU启动这类传输将减少时间并加速推理过程。SCADA正是这一发现的产物，Nvidia在2025年FMS论文中对此进行了详细讨论。

生态系统合作伙伴的支持

Nvidia正与存储生态系统合作伙伴合作，将使用SCADA的SSD和控制器产品化。SSD控制器制造商Marvell的闪存存储产品营销总监Chander Chadha表示："AI基础设施的需求促使存储公司开发专门支持GPU的SSD、控制器、NAND等技术，重点是为AI推理提供更高的IOPS（每秒输入/输出操作次数），这将与CPU连接驱动器有根本不同，后者更关注延迟和容量。"

Chadha解释说："GPU在SCADA框架内启动存储事务，该框架围绕内存语义构建"，这意味着SSD控制器必须响应加载和存储请求。

他指出，当前的SSD在IOPS方面响应速度不够快，"对于小于4KB的数据集，导致PCIe总线利用率不足，使GPU缺乏数据并浪费周期。"GPU在推理工作负载中可能需要此类数据来维持超过1000个并行线程。相比之下，采用CPU启动传输的AI训练需要的并行线程较少。Chadha说："GPU并行线程的数量要低得多——几十个对几千个——而且数据集规模更大。"

技术发展方向

更快的PCIe总线（如PCIe 6和7）将有所帮助，但SSD控制器也需要更新SCADA加速器功能和"针对较小负载的最佳纠错方案。"

Chadha预计将出现能够处理两种类型工作负载的SSD控制器，"能够同时处理PCIe和以太网流量。"他还表示，"预计未来将看到与高带宽闪存或CXL网络接口相关的工作。"

美光的SCADA实践

NAND和SSD供应商美光也积极参与SCADA开发。该公司推出了PCIe Gen 6 SSD——9650，具有"小块操作优化"功能。7.68TB型号可提供高达540万随机读取IOPS。美光在SC25展会上演示了44个这样的SSD，使用SCADA编程模型实现了2.3亿IOPS。

该设置使用连接到Broadcom PEX90000 PCIe Gen 6交换机的SSD，安装在H3 Platform Falcon 6048 PCIe Gen 6服务器中。该服务器包含三个Nvidia H100 PCIe Gen 5 GPU。

美光表示，该系统"展示了从1到44个SSD的线性扩展。"演示的2.3亿最大IOPS数字非常接近44个驱动器聚合的540万随机读取IOPS的理论最大值2.376亿。

美光总结道："结合PCIe Gen6高性能SSD，这种SCADA架构实现了向量数据库、图神经网络和大规模推理流水线等工作负载的实时数据访问。"

补充说明

SCADA缩写传统上用于监督控制和数据采集，指的是遥测领域。Nvidia的用法虽然不同，但具有相似性。

Q&A

Q1：Nvidia SCADA技术相比GPUDirect有什么优势？

A：SCADA技术将存储控制路径也转移到GPU，而GPUDirect只转移了数据路径。对于AI推理中常见的小于4KB的小块数据传输，SCADA能够显著减少传输时间，提高推理速度，因为GPU可以直接启动和控制存储操作。

Q2：为什么AI推理和AI训练对存储IO的需求不同？

A：AI训练通常需要大批量数据传输，控制路径时间相对较小，并行线程数量较少（几十个）。而AI推理需要小块IO处理（小于4KB），每次传输的控制路径时间相对较大，需要维持超过1000个并行线程，因此对IOPS性能要求更高。

Q3：美光在SCADA技术演示中取得了什么成果？

A：美光使用44个PCIe Gen 6 SSD 9650，在H3 Platform Falcon 6048服务器上演示了2.3亿IOPS的性能，接近理论最大值2.376亿。这证明了SCADA架构能够实现从1到44个SSD的线性扩展，为向量数据库和大规模推理流水线提供实时数据访问。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Nvidia SCADA技术将存储控制路径转移至GPU

来源：BLOCKS & FILES

2025

11/26

08:19

分享

点赞

Littelfuse推出适用于电动汽车电池、电机和安全系统的汽车级电流传感器

CES 2026 | 机器人开发的“ChatGPT时刻”已到 老黄定调“物理AI”的路线图

超越能源使用：数据中心可持续运营策略

2026年超大规模数据中心运营商发展前瞻：全球最大数据中心运营商的未来走向

TOTOLINK EX200存在未修复固件漏洞可被完全远程接管

Ring推出Fire Watch功能，利用家庭摄像头追踪野火威胁

Snowflake与Google Gemini深度整合，全云环境支持数据分析

联想和摩托罗拉推出自有设备端AI助手

机器海龟游向环保使命：仿生技术守护珊瑚礁

CES 2026最酷笔记本电脑：可拆卸设计成为新趋势

AMD 在 CES 2026 发布新款锐龙处理器、Ryzen AI 及 AMD ROCm，全面扩展其在客户端、图形和软件领域的 AI 领先地位

AMD发布Instinct GPU新品挑战英伟达数据中心霸主地位

Hammerspace凭借标准软件在IO500性能测试中实现突破

甲骨文在阿布扎比部署中东首个AI超级集群推进主权人工智能

67%的首席信息官认为自己有潜力成为首席执行官

IBM谈如何打破云服务供应商垄断束缚

AI工作负载两年内将主导数据中心建设

AWS投资500亿美元为美国政府建设AI基础设施

微软发布Fara-7B智能体模型，可在PC端本地运行控制计算机

Monday.com：AI技术助力解决现代工作效率危机

Google联手Accel寻找印度下一代AI突破企业

Anthropic发布Opus 4.5版本，集成Chrome和Excel新功能

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CES 2026 | 机器人开发的“ChatGPT时刻”已到老黄定调“物理AI”的路线图