如果没有图形处理器单元 ( GPU ) ,大多数 AI 任务无法训练和运行。但没有服务器托管,亦无法部署 GPU 。这就是为什么关于数据中心内 GPU 未来的探讨不仅要考虑企业如何获取、配置和供电 GPU ,还要考虑如何打造 GPU 所在的服务器基础设施。
什么是 GPU 服务器?
GPU 服务器就是一台配备了一个或多个 GPU 的服务器。通常,GPU 服务器用于运行需要大量并行计算能力的工作负载。由于 GPU 非常适合并行处理,它们在诸如训练 AI 模型等场景中表现出色,因为这些任务需要同时执行大量操作。
GPU 服务器还包含中央处理器单元 ( CPU ) 。CPU 用于执行传统的计算任务,例如运行控制服务器的操作系统。但 GPU 服务器不仅拥有传统的 CPU ,还提供 GPU 计算资源。
GPU 服务器在数据中心中日益增长的作用
在生成式 AI 兴起之前,数据中心内很少见到 GPU 服务器。大多数数据中心服务器都是传统设备,其计算资源仅由 CPU 提供,而 CPU 非常适合支撑诸如托管网站和数据库等大多数传统负载。
但随着支撑 AI 模型训练和推理的基础设施需求不断增长,数据中心托管 GPU 服务器的能力变得日益重要。
配备先进冷却系统的高密度 GPU 服务器为现代数据中心中的 AI 工作负载提供动力。(图片来源:Alamy)
GPU 服务器与 CPU 服务器的对比
在许多方面,GPU 服务器与仅包含 CPU 的传统服务器类似。它们通常尺寸相同,可适配标准服务器机架,并需要相同类型的网络和电源连接。
然而,GPU 服务器在以下几个重要方面有所区别:
更多扩展槽:传统服务器通常只有较少的扩展槽,供技术人员将 GPU 和其他专用硬件设备连接到服务器主板上,因为大多数传统服务器并不需要大量附加卡。然而,对于 GPU 服务器来说,必须提供插入 GPU 的途径,因此它们需要更多扩展槽——通常比传统服务器拥有更多扩展槽。有些 GPU 服务器甚至配备足够槽位,可容纳多达 10 个独立 GPU 。
更高的电力需求:GPU 消耗大量电力。这意味着 GPU 服务器必须能够提供比典型仅 CPU 服务器更多的电力。GPU 的供电方式可能各不相同,有时电力通过服务器主板传输,而高端企业级 GPU 则可能拥有专用电源接口。不管怎样,GPU 服务器(以及托管它的机架)都必须能够提供足够的总电能以确保 GPU 正常运行。
更强的散热能力:高能耗必然伴随高热输出。因此,GPU 服务器必须特别擅长散热,通常需要比传统风扇更先进的冷却解决方案。
为 GPU 服务器准备数据中心
由于 GPU 服务器通常可以安装在传统服务器机架中,从物理空间角度来看,它们不会给数据中心运营商带来特殊挑战。但数据中心可能需要在其他方面进行调整以适应 GPU 的需求。
最大的挑战可能在于电力供应。如上所述,GPU 服务器通常需要更多能量。对于数据中心运营商来说,这不仅意味着要确保设施能够提供足够的总电力以维持 GPU 服务器运行,还可能需要优先投资可持续能源,以防高耗电的 GPU 影响可持续性承诺。
保持 GPU 服务器良好散热也是运营商的一大重点。将数十台 GPU 服务器装入同一机架,如果没有高效的散热系统来迅速移除热量,可能根本行不通。
另一个问题是数据中心灾难恢复。无论设施中的服务器类型如何,保护数据中心基础设施免受故障影响并迅速恢复都至关重要。但当服务器中包含每台价格高达数万美元的 GPU 时,这一点尤为重要。
此外,当存在 GPU 服务器时,从停电中恢复可能会更具挑战性,因为在这些服务器上运行的工作负载更难迁移到其他服务器上。如果一台标准服务器宕机,通常可以用另一台标准服务器替换,但对于包含专用硬件和特定配置的 GPU 服务器,情况则不尽相同。
最终结论:将数据中心打造成适合 GPU 服务器的理想环境完全可行,但这需要一些特殊规划和投资。虽然 GPU 服务器可以与标准仅 CPU 服务器共置于同一机架内,但这并不意味着在没有专门措施的情况下就能完美运行。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。