如果没有图形处理器单元 ( GPU ) ,大多数 AI 任务无法训练和运行。但没有服务器托管,亦无法部署 GPU 。这就是为什么关于数据中心内 GPU 未来的探讨不仅要考虑企业如何获取、配置和供电 GPU ,还要考虑如何打造 GPU 所在的服务器基础设施。
什么是 GPU 服务器?
GPU 服务器就是一台配备了一个或多个 GPU 的服务器。通常,GPU 服务器用于运行需要大量并行计算能力的工作负载。由于 GPU 非常适合并行处理,它们在诸如训练 AI 模型等场景中表现出色,因为这些任务需要同时执行大量操作。
GPU 服务器还包含中央处理器单元 ( CPU ) 。CPU 用于执行传统的计算任务,例如运行控制服务器的操作系统。但 GPU 服务器不仅拥有传统的 CPU ,还提供 GPU 计算资源。
GPU 服务器在数据中心中日益增长的作用
在生成式 AI 兴起之前,数据中心内很少见到 GPU 服务器。大多数数据中心服务器都是传统设备,其计算资源仅由 CPU 提供,而 CPU 非常适合支撑诸如托管网站和数据库等大多数传统负载。
但随着支撑 AI 模型训练和推理的基础设施需求不断增长,数据中心托管 GPU 服务器的能力变得日益重要。
配备先进冷却系统的高密度 GPU 服务器为现代数据中心中的 AI 工作负载提供动力。(图片来源:Alamy)
GPU 服务器与 CPU 服务器的对比
在许多方面,GPU 服务器与仅包含 CPU 的传统服务器类似。它们通常尺寸相同,可适配标准服务器机架,并需要相同类型的网络和电源连接。
然而,GPU 服务器在以下几个重要方面有所区别:
更多扩展槽:传统服务器通常只有较少的扩展槽,供技术人员将 GPU 和其他专用硬件设备连接到服务器主板上,因为大多数传统服务器并不需要大量附加卡。然而,对于 GPU 服务器来说,必须提供插入 GPU 的途径,因此它们需要更多扩展槽——通常比传统服务器拥有更多扩展槽。有些 GPU 服务器甚至配备足够槽位,可容纳多达 10 个独立 GPU 。
更高的电力需求:GPU 消耗大量电力。这意味着 GPU 服务器必须能够提供比典型仅 CPU 服务器更多的电力。GPU 的供电方式可能各不相同,有时电力通过服务器主板传输,而高端企业级 GPU 则可能拥有专用电源接口。不管怎样,GPU 服务器(以及托管它的机架)都必须能够提供足够的总电能以确保 GPU 正常运行。
更强的散热能力:高能耗必然伴随高热输出。因此,GPU 服务器必须特别擅长散热,通常需要比传统风扇更先进的冷却解决方案。
为 GPU 服务器准备数据中心
由于 GPU 服务器通常可以安装在传统服务器机架中,从物理空间角度来看,它们不会给数据中心运营商带来特殊挑战。但数据中心可能需要在其他方面进行调整以适应 GPU 的需求。
最大的挑战可能在于电力供应。如上所述,GPU 服务器通常需要更多能量。对于数据中心运营商来说,这不仅意味着要确保设施能够提供足够的总电力以维持 GPU 服务器运行,还可能需要优先投资可持续能源,以防高耗电的 GPU 影响可持续性承诺。
保持 GPU 服务器良好散热也是运营商的一大重点。将数十台 GPU 服务器装入同一机架,如果没有高效的散热系统来迅速移除热量,可能根本行不通。
另一个问题是数据中心灾难恢复。无论设施中的服务器类型如何,保护数据中心基础设施免受故障影响并迅速恢复都至关重要。但当服务器中包含每台价格高达数万美元的 GPU 时,这一点尤为重要。
此外,当存在 GPU 服务器时,从停电中恢复可能会更具挑战性,因为在这些服务器上运行的工作负载更难迁移到其他服务器上。如果一台标准服务器宕机,通常可以用另一台标准服务器替换,但对于包含专用硬件和特定配置的 GPU 服务器,情况则不尽相同。
最终结论:将数据中心打造成适合 GPU 服务器的理想环境完全可行,但这需要一些特殊规划和投资。虽然 GPU 服务器可以与标准仅 CPU 服务器共置于同一机架内,但这并不意味着在没有专门措施的情况下就能完美运行。
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。