3U 8卡:对AI推理服务器意味着什么?

如果把2U服务器加高到3U,就不难面对CPU功耗不断提升的情况了。按最简单的理解,如果只是加高CPU散热器的高度(鳍片总面积成正比),还有机箱空间/风扇排的改变,效果应该是可以的。3U机箱还有另一点好处。记得我在多年前曾选型过一款机箱,当时看重3U机架式的原因就是能插全高PCI/PCIe板卡(考虑支持工作站的显卡),不需要像2U机箱那样转接为横插。

上周四(125日)在北京举办的“AMD Advancing AI中国解决方案峰会”,我去看个热闹。参展的服务器OEMODM厂商、展出的机型数量都比较可观,有点让我感觉回到几年前灯厂(樱桃司)同类市场活动的感觉。

我还看到一个特点,就是现场的样机大约半数以上为GPU服务器机型,显然受当今AI热潮的影响。大家既然来露个脸,非GPU优化的传统服务器感觉新意不大吧。

虽然我拍了不少照片,但由于时间和精力有限,只能挑一些重点分享给大家。受限于个人水平,以及对各家服务器机型的了解,如描述有误或不足支持还望多包涵、指正。

3U机架式服务器的驱动因素

在《风冷500W CPU?Dell PowerEdge 17G AMD服务器预览》一文中,我提到过2U7725双路机型参数中,写了风冷散热能支持到500WEPYC 9005 CPU。由于还没看到详细资料,暂时不确定是否有进风温度等方面限制?

这几年来,我也曾不只一次听到同行朋友说,如果2U服务器加高到3U,就不难面对CPU功耗不断提升的情况了。按最简单的理解,如果只是加高CPU散热器的高度(鳍片总面积成正比),还有机箱空间/风扇排的改变,效果应该是可以的。

3U机箱还有另一点好处。记得我在多年前曾选型过一款机箱,当时看重3U机架式的原因就是能插全高PCI/PCIe板卡(考虑支持工作站的显卡),不需要像2U机箱那样转接为横插。下面这款服务器的特点也是如此:

3U 8卡:对AI推理服务器意味着什么?

上面照片,我们看到的是服务器前窗。数一数PCIe I/O金属挡片的物理位置,一共是18个——左边留出了一个存储盘位区域(这台配置是4E3.S NVMe SSD)。具体支持的扩展卡数量请往下看。

3U 8卡:对AI推理服务器意味着什么?

这台服务器机型是Lenovo SR675 V33U机架式,最多支持2AMD EPYC 9004/9005系列处理器。曾经写过,因为都是SP5插槽,所以改换BIOS就能用同样主板适配2CPU

NVIDIA HGX H200H100 4-GPU SXM模组的支持,并不是我想谈的重点,因为如果采用冷板式液冷,2U服务器就能支持这些。而我在《风冷、液冷GPU服务器密度提升 - PowerEdge 17G整机架预览》中也提到,8-GPU SXM模组可以适配在6U风冷和4U液冷机型中。

8个双宽600W GPU的支持,又让我想起了NVIDIAH200 NVL;既然是标准PCIe卡,联想资料中也写了支持AMD Instinct(TM) MI 系列加速器。我之前提到过D厂商对应的机型,是4UXE7740XE7745

PCIe SwitchGPU直通CPU的区别

3U 8卡:对AI推理服务器意味着什么?

支持GPU8PCIe x16插槽,分布在2PCIe交换板上;最右边还有块“PCB小板”,2个单宽PCIe槽位看上去是通过Retimer芯片直通连接的。

SR675 V3这机箱长度不短。为了照顾PCIe板卡的散热,把该区域放在了机箱的最前端。我们可以看到2颗散热片下面的应该是PCIe Switch芯片。

3U 8卡:对AI推理服务器意味着什么?

SR675 V3也像不少GPU服务器那样提供了PCIe直通CPU的选项,此时是最多14PCIe插槽,其中8个双宽GPU槽位支持x8 Lane宽度。

3U 8卡:对AI推理服务器意味着什么?

从表面上看,这款3U机箱只有5个系统风扇,但尺寸却是80cm2U服务器一般是60cm风扇)。Nidec这个风扇标称的12V电流可达5.54A,不知配满8600W GPU时具体转多快。

3U 8卡:对AI推理服务器意味着什么?

图片点开后可放大查看

在上图中,我用红框圈出了SR675 V3可选的几种“正面IO配置”。除了8 x 双宽GPU之外,还有4 x 双宽,以及SXM系统几种选项。对应的技术文档我还没有细读,供大家参考。

3U 8卡:对AI推理服务器意味着什么?

如图:我用红框标出的上面一看,是左侧PCIe Switch芯片的2x16上行通道(连接到EPYC CPU),那么4x16 PCIe 5.0插槽就是对应的下行通道。因此PCIe Switch芯片应该不少于96 Lane

位于PCIe交换板下方的“长条小板”,右侧也是2PCIe x16连接器,直通给左边的2个单宽插槽。也没看到像GPU插槽那样有供电加强,所以它们应该就是为网卡等而设计的

PCIe Switch的作用不只是信道扩展,它还可以作为Root Port,让GPU之间的通信,以及GPU与网卡等之间的I/O可以不用经过CPUPCIe控制器。当然在这里的情况应该有些不同:

1、 最新的H200 NVL支持4块卡间的NVLink互连方案,当然按道理国内买不到;

2、 SR675 V3机型并没有用PCIe Switch8GPU之外的板卡提供更多插槽,毕竟3U机箱空间有限。

OCP Grand Teton AI服务器:训练和推理的配置异同

具体到AI大模型应用的适配,某款机型更适合训练还是推理?下面我参考OCPGrand Teton项目简单讨论下,当然不同企业玩的大模型参数量规模也不同,比如MetaLlama38B70B一直到405B都有。

关于OCPGrand Teton项目,我在《Hot Chips 2024资料公开下载:聚焦AI芯片&散热》中讨论了一点。今天进一步引用Spec文档中的内容。

3U 8卡:对AI推理服务器意味着什么?

整套Grand Teton是在8U机箱里面有3tray2UCPU tray2USwitch trayPCIe交换)以及Accelerator tray。具体到加速器可以是HGX 8-way H100,也可以换成Meta自己的MTIA ASIC推理卡。本文中暂时只讨论NVIDIA GPU部分

3U 8卡:对AI推理服务器意味着什么?

上面是Grand Teton用于训练服务器的配置。请大家留意下,在Switch Tray中,每个Broadcom PEX89144 PCIe Switch上还连接有2400G低延时网卡——用于AI集群的Scale-out网络,以及4NVMe SSD——这些也算是为GPU服务的。

3U 8卡:对AI推理服务器意味着什么?

推理服务器的配置,对GPU显存需求比训练低许多。如果通过NVLink Scale-up组网的8GPU能够容纳下AI大模型,就可以降低对Scale-out网络的要求

而在推理服务器的配置中,Grand Teton每个GPU对应的1400G网卡不要了,整台服务器只保留2CPU上各自连接的1400G NIC。另外NVMe SSD减少了一半

由此来看,在所谓的千卡、万卡AI集群中,3U GPU服务器的定位应该主要是推理应用吧?

EDSFF SSDEPYC CPU散热器一瞥

3U 8卡:对AI推理服务器意味着什么?

回来继续看SR675 V3服务器上的SSD4个盘位里我把这块抽出来。

3U 8卡:对AI推理服务器意味着什么?

三星的PM1743 EDSFF E3.S 3.84T TLC NVMe SSD

3U 8卡:对AI推理服务器意味着什么?

这台SR675 V3样机,好像并没有因为3U机箱而换成加高的CPU散热器?其实想想也正常,因为它的风道设计重点针对在前部的GPU部分。如果只是插一些低功耗的PCIe卡,从技术角度想加强CPU散热也没有什么难题吧。

3U 8卡:对AI推理服务器意味着什么?

会场展示的一颗AMD EPYC 9005——满配Zen 5标准CCDCore Complex Die)布局,168核的CCD组成128“核心

支持MI308X GPU的服务器,来自谁家

刚介绍了会场上不多见的3U服务器,再来看另一个有点特色的:

3U 8卡:对AI推理服务器意味着什么?

上面照片是一台6U服务器,里面8GPU从外表看可能是NVIDIA SXM,会不会是其他的OAM规范模组呢?

3U 8卡:对AI推理服务器意味着什么?

在旁边的介绍里,这款机型是浪潮NF5698A7具体支持什么GPU大家看到了吧。

2U 4节点双路500W CPU:风冷/液冷?

3U 8卡:对AI推理服务器意味着什么?

上面这台2U服务器,中间支持8E3.S SSD,两边的风扇显然为散热优化设计过。我们来看看具体配置:

3U 8卡:对AI推理服务器意味着什么?

浪潮这款2U 4节点机框的型号是i24-A8,分为风冷和液冷两种机箱,里面对应2款不同散热方式的NS5180-A8 1U半宽双路服务器节点。

我一周前刚写过DellM7725——是1U双节点双路500W CPU,冷板式液冷。浪潮这个密度相仿,如果配500WCPU估计同样需要液冷了。

 

来源:企业存储技术

0赞

好文章,需要你的鼓励

2024

12/10

11:04

分享

点赞

企业存储技术

关注服务器、存储、AI、图形工作站等方面技术。

最近文章 :