3U 8卡：对AI推理服务器意味着什么？

如果把2U服务器加高到3U，就不难面对CPU功耗不断提升的情况了。按最简单的理解，如果只是加高CPU散热器的高度（鳍片总面积成正比），还有机箱空间/风扇排的改变，效果应该是可以的。3U机箱还有另一点好处。记得我在多年前曾选型过一款机箱，当时看重3U机架式的原因就是能插全高PCI/PCIe板卡（考虑支持工作站的显卡），不需要像2U机箱那样转接为横插。

上周四（12月5日）在北京举办的“AMD Advancing AI中国解决方案峰会”，我去看个热闹。参展的服务器OEM、ODM厂商、展出的机型数量都比较可观，有点让我感觉回到几年前灯厂（樱桃司）同类市场活动的感觉。

我还看到一个特点，就是现场的样机大约半数以上为GPU服务器机型，显然受当今AI热潮的影响。大家既然来露个脸，非GPU优化的传统服务器感觉新意不大吧。

虽然我拍了不少照片，但由于时间和精力有限，只能挑一些重点分享给大家。受限于个人水平，以及对各家服务器机型的了解，如描述有误或不足支持还望多包涵、指正。

3U机架式服务器的驱动因素

在《风冷500W CPU？Dell PowerEdge 17G AMD服务器预览》一文中，我提到过2U的7725双路机型参数中，写了风冷散热能支持到500W的EPYC 9005 CPU。由于还没看到详细资料，暂时不确定是否有进风温度等方面限制？

这几年来，我也曾不只一次听到同行朋友说，如果把2U服务器加高到3U，就不难面对CPU功耗不断提升的情况了。按最简单的理解，如果只是加高CPU散热器的高度（鳍片总面积成正比），还有机箱空间/风扇排的改变，效果应该是可以的。

3U机箱还有另一点好处。记得我在多年前曾选型过一款机箱，当时看重3U机架式的原因就是能插全高PCI/PCIe板卡（考虑支持工作站的显卡），不需要像2U机箱那样转接为横插。下面这款服务器的特点也是如此：

3U 8卡：对AI推理服务器意味着什么？

上面照片，我们看到的是服务器前窗。数一数PCIe I/O金属挡片的物理位置，一共是18个——左边留出了一个存储盘位区域（这台配置是4个E3.S NVMe SSD）。具体支持的扩展卡数量请往下看。

3U 8卡：对AI推理服务器意味着什么？

这台服务器机型是Lenovo SR675 V3，3U机架式，最多支持2颗AMD EPYC 9004/9005系列处理器。我曾经写过，因为都是SP5插槽，所以改换BIOS就能用同样主板适配2代CPU。

NVIDIA HGX H200或H100 4-GPU SXM模组的支持，并不是我想谈的重点，因为如果采用冷板式液冷，2U服务器就能支持这些。而我在《风冷、液冷GPU服务器密度提升 - PowerEdge 17G整机架预览》中也提到，8-GPU SXM模组可以适配在6U风冷和4U液冷机型中。

而8个双宽600W GPU的支持，又让我想起了NVIDIA的H200 NVL；既然是标准PCIe卡，联想资料中也写了支持AMD Instinct(TM) MI 系列加速器。我之前提到过D厂商对应的机型，是4U的XE7740和XE7745。

PCIe Switch与GPU直通CPU的区别

3U 8卡：对AI推理服务器意味着什么？

支持GPU的8个PCIe x16插槽，分布在2块PCIe交换板上；最右边还有块“PCB小板”，2个单宽PCIe槽位看上去是通过Retimer芯片直通连接的。

SR675 V3这机箱长度不短。为了照顾PCIe板卡的散热，把该区域放在了机箱的最前端。我们可以看到2颗散热片下面的应该是PCIe Switch芯片。

3U 8卡：对AI推理服务器意味着什么？

SR675 V3也像不少GPU服务器那样提供了PCIe直通CPU的选项，此时是最多14个PCIe插槽，其中8个双宽GPU槽位支持x8 Lane宽度。

3U 8卡：对AI推理服务器意味着什么？

从表面上看，这款3U机箱只有5个系统风扇，但尺寸却是80cm（2U服务器一般是60cm风扇）。Nidec这个风扇标称的12V电流可达5.54A，不知配满8块600W GPU时具体转多快。

3U 8卡：对AI推理服务器意味着什么？

图片点开后可放大查看

在上图中，我用红框圈出了SR675 V3可选的几种“正面IO配置”。除了8 x 双宽GPU之外，还有4 x 双宽，以及SXM系统几种选项。对应的技术文档我还没有细读，供大家参考。

3U 8卡：对AI推理服务器意味着什么？

如图：我用红框标出的上面一看，是左侧PCIe Switch芯片的2个x16上行通道（连接到EPYC CPU），那么4个x16 PCIe 5.0插槽就是对应的下行通道。因此PCIe Switch芯片应该不少于96 Lane。

位于PCIe交换板下方的“长条小板”，右侧也是2个PCIe x16连接器，直通给左边的2个单宽插槽。也没看到像GPU插槽那样有供电加强，所以它们应该就是为网卡等而设计的。

PCIe Switch的作用不只是信道扩展，它还可以作为Root Port，让GPU之间的通信，以及GPU与网卡等之间的I/O可以不用经过CPU的PCIe控制器。当然在这里的情况应该有些不同：

1、最新的H200 NVL支持4块卡间的NVLink互连方案，当然按道理国内买不到；

2、 SR675 V3机型并没有用PCIe Switch为8块GPU之外的板卡提供更多插槽，毕竟3U机箱空间有限。

OCP Grand Teton AI服务器：训练和推理的配置异同

具体到AI大模型应用的适配，某款机型更适合训练还是推理？下面我参考OCP的Grand Teton项目简单讨论下，当然不同企业玩的大模型参数量规模也不同，比如Meta的Llama3从8B、70B一直到405B都有。

关于OCP的Grand Teton项目，我在《Hot Chips 2024资料公开下载：聚焦AI芯片&散热》中讨论了一点。今天进一步引用Spec文档中的内容。

3U 8卡：对AI推理服务器意味着什么？

整套Grand Teton是在8U机箱里面有3个tray：2U的CPU tray、2U的Switch tray（PCIe交换）以及Accelerator tray。具体到加速器可以是HGX 8-way H100，也可以换成Meta自己的MTIA ASIC推理卡。本文中暂时只讨论NVIDIA GPU部分。