理解 GPU 服务器及其在数据中心中的角色

文章讨论了 GPU 服务器如何利用并行处理支持 AI 运算，比较了其与传统 CPU 服务器在扩展性、功耗与散热等方面的区别，并指出数据中心须相应升级供电与冷却设施。

如果没有图形处理器单元 ( GPU ) ，大多数 AI 任务无法训练和运行。但没有服务器托管，亦无法部署 GPU 。这就是为什么关于数据中心内 GPU 未来的探讨不仅要考虑企业如何获取、配置和供电 GPU ，还要考虑如何打造 GPU 所在的服务器基础设施。

什么是 GPU 服务器？

GPU 服务器就是一台配备了一个或多个 GPU 的服务器。通常，GPU 服务器用于运行需要大量并行计算能力的工作负载。由于 GPU 非常适合并行处理，它们在诸如训练 AI 模型等场景中表现出色，因为这些任务需要同时执行大量操作。

GPU 服务器还包含中央处理器单元 ( CPU ) 。CPU 用于执行传统的计算任务，例如运行控制服务器的操作系统。但 GPU 服务器不仅拥有传统的 CPU ，还提供 GPU 计算资源。

GPU 服务器在数据中心中日益增长的作用

在生成式 AI 兴起之前，数据中心内很少见到 GPU 服务器。大多数数据中心服务器都是传统设备，其计算资源仅由 CPU 提供，而 CPU 非常适合支撑诸如托管网站和数据库等大多数传统负载。

但随着支撑 AI 模型训练和推理的基础设施需求不断增长，数据中心托管 GPU 服务器的能力变得日益重要。

配备先进冷却系统的高密度 GPU 服务器为现代数据中心中的 AI 工作负载提供动力。（图片来源：Alamy）

GPU 服务器与 CPU 服务器的对比

在许多方面，GPU 服务器与仅包含 CPU 的传统服务器类似。它们通常尺寸相同，可适配标准服务器机架，并需要相同类型的网络和电源连接。

然而，GPU 服务器在以下几个重要方面有所区别：

更多扩展槽：传统服务器通常只有较少的扩展槽，供技术人员将 GPU 和其他专用硬件设备连接到服务器主板上，因为大多数传统服务器并不需要大量附加卡。然而，对于 GPU 服务器来说，必须提供插入 GPU 的途径，因此它们需要更多扩展槽——通常比传统服务器拥有更多扩展槽。有些 GPU 服务器甚至配备足够槽位，可容纳多达 10 个独立 GPU 。

更高的电力需求：GPU 消耗大量电力。这意味着 GPU 服务器必须能够提供比典型仅 CPU 服务器更多的电力。GPU 的供电方式可能各不相同，有时电力通过服务器主板传输，而高端企业级 GPU 则可能拥有专用电源接口。不管怎样，GPU 服务器（以及托管它的机架）都必须能够提供足够的总电能以确保 GPU 正常运行。

更强的散热能力：高能耗必然伴随高热输出。因此，GPU 服务器必须特别擅长散热，通常需要比传统风扇更先进的冷却解决方案。

为 GPU 服务器准备数据中心

由于 GPU 服务器通常可以安装在传统服务器机架中，从物理空间角度来看，它们不会给数据中心运营商带来特殊挑战。但数据中心可能需要在其他方面进行调整以适应 GPU 的需求。

最大的挑战可能在于电力供应。如上所述，GPU 服务器通常需要更多能量。对于数据中心运营商来说，这不仅意味着要确保设施能够提供足够的总电力以维持 GPU 服务器运行，还可能需要优先投资可持续能源，以防高耗电的 GPU 影响可持续性承诺。

保持 GPU 服务器良好散热也是运营商的一大重点。将数十台 GPU 服务器装入同一机架，如果没有高效的散热系统来迅速移除热量，可能根本行不通。

另一个问题是数据中心灾难恢复。无论设施中的服务器类型如何，保护数据中心基础设施免受故障影响并迅速恢复都至关重要。但当服务器中包含每台价格高达数万美元的 GPU 时，这一点尤为重要。

此外，当存在 GPU 服务器时，从停电中恢复可能会更具挑战性，因为在这些服务器上运行的工作负载更难迁移到其他服务器上。如果一台标准服务器宕机，通常可以用另一台标准服务器替换，但对于包含专用硬件和特定配置的 GPU 服务器，情况则不尽相同。

最终结论：将数据中心打造成适合 GPU 服务器的理想环境完全可行，但这需要一些特殊规划和投资。虽然 GPU 服务器可以与标准仅 CPU 服务器共置于同一机架内，但这并不意味着在没有专门措施的情况下就能完美运行。

来源：DataCenterKnowledge

0赞

好文章，需要你的鼓励

理解 GPU 服务器及其在数据中心中的角色

来源：DataCenterKnowledge

2025

06/03

10:05

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

AI 聊天机器人如何让你不断聊天

IBM 收购数据分析初创公司 Seek AI，在纽约市开设 AI 加速器

微软 Bing 推出免费 Sora 驱动的 AI 视频生成器

Mistral AI 推出代理框架以争夺企业市场

对抗性 AI：金融网络安全的新前沿

Nvidia 超预期Q1业绩，营收同比增长 69%

世界上最大的芯片创下 AI 速度记录，超越 NVIDIA

数据目录为非结构化数据带来全新改变

Salesforce 斥资80亿美元收购 Informatica 支持 agentic AI 策略

Bit Cloud 为 AI 生成应用程序提供更高的可视性和控制力

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: