AMD推出面向AI推理的PCIe加速卡,兼容现有服务器基础设施

AMD发布Instinct MI350P PCIe加速卡,专为企业现有数据中心基础设施设计。该卡为双槽标准PCIe形态,支持风冷服务器,无需额外改造即可部署AI推理任务。MI350P配备144GB HBM3E显存,带宽高达4TB/s,峰值性能达4600 TFLOPS(MXFP4精度),是目前企业级PCIe卡中性能最高的产品之一。单卡可处理约2000至2500亿参数的大语言模型,支持最多8卡配置,适用于SLM/LLM推理及RAG流水线场景。

AMD正式发布其Instinct企业级GPU加速器系列的最新产品——MI350,该产品专为适配客户现有数据中心基础设施而设计。

针对智能体AI场景,Instinct MI350P PCIe卡采用双插槽直插式设计,可兼容标准风冷服务器,能够在客户现有数据中心的供电、散热和机架基础设施中直接部署本地推理工作负载。

MI350P是AMD时隔四年首款基于PCIe接口的Instinct加速卡。AMD过去通常以OAM模块形式提供Instinct GPU,每套捆绑八块GPU安装于服务器中。MI350P采用全高全长PCIe卡设计,可安装在任何2U及以上规格的服务器中。这使企业客户可以从单卡起步,逐步探索AI应用,而无需一次性部署AMD传统方案中的八块GPU。

Instinct MI350P PCIe卡支持在风冷系统中最多部署八张加速卡,适用于小型、中型和大型AI模型的推理及RAG流水线工作负载。该卡搭载144GB HBM3E高带宽内存,带宽高达4TB/s。

性能方面,MI350P的估算算力为2,299 TFLOPS,在MXFP4精度下峰值算力可达4,600 TFLOPS。AMD表示,这是目前企业级PCIe卡中可用的最高性能。该卡原生支持低精度MXFP6和MXFP4格式,可实现高吞吐量,并通过稀疏性加速支持大多数主流8位和16位精度计算。

MI350P支持一种称为"稀疏性"的技术,即在数据集和矩阵计算中忽略零值,从而减少处理时间。AMD表示,稀疏性支持使INT8和BF16等高精度格式同样能够实现高效运行。

AMD表示,Instinct MI350P单卡可处理约2000亿至2500亿参数规模的大语言模型,配合每节点最多八块GPU的扩展能力,能够覆盖SLM、MLM、大语言模型推理及RAG等多种工作负载。此外,MI350P完整支持AMD为Instinct和Radeon产品系列提供的ROCm开源软件栈。

目前,AMD尚未公布MI350P的正式上市日期及定价信息。

Q&A

Q1:AMD Instinct MI350P PCIe卡与以往的Instinct GPU有什么不同?

A:MI350P是AMD时隔四年推出的首款PCIe接口Instinct加速卡。此前AMD通常以每套八块GPU的OAM模块形式销售Instinct产品。MI350P采用全高全长PCIe卡设计,可插入任何2U及以上规格服务器,让企业客户无需一次性部署八块GPU,可从单卡开始逐步试用AI推理功能,大幅降低了入门门槛。

Q2:AMD Instinct MI350P的性能表现如何?

A:MI350P估算算力为2,299 TFLOPS,在MXFP4精度下峰值算力可达4,600 TFLOPS,AMD称其为目前企业级PCIe卡中性能最高的产品。该卡搭载144GB HBM3E高带宽内存,带宽高达4TB/s,原生支持MXFP6、MXFP4等低精度格式,并通过稀疏性技术进一步提升INT8和BF16精度下的运行效率。

Q3:AMD Instinct MI350P适合处理多大规模的大语言模型?

A:MI350P单卡可处理约2000亿至2500亿参数规模的大语言模型。在每节点最多部署八块GPU的配置下,可覆盖SLM、MLM、大语言模型推理以及RAG流水线等多种工作负载,适合中小型到大型AI推理场景使用。

来源:Networkworld

0赞

好文章,需要你的鼓励

2026

05/12

10:19

分享

点赞

邮件订阅