人工智能负载变化重塑数据中心设计理念

几十年来,数据中心一直按照极高韧性标准建造,追求99.999%的运行时间。然而,AI的兴起改变了这一需求。不同的AI模型、训练和推理过程需要完全不同的服务水平。AI训练工作负载并不需要传统的高可用性要求。运营商正从为每个设施构建最大冗余转向优先考虑盈利能力和能效。通过"精准韧性"设计,根据工作负载实际行为来配置冗余,而非依赖传统设计假设,可以更高效地部署资源,加快新站点部署速度。

几十年来,数据中心的工程设计如同商业航空器一样,采用多层冗余架构,因为故障绝对不是选项,而且无法预测哪些应用程序会使用站点基础设施。大多数数据中心必须容纳不同类型的应用程序,并准备好备份以防出现问题。

然而,AI的增长带来了不同的现实情况——既不需要极端的弹性和近乎完美的正常运行时间,同时又受到供应链无法快速扩展的约束。这种转变使得数据中心行业看起来不再像航空业,而更像是更广泛的交通网络,针对AI训练或推理提供多种参考架构。因为并非每次出行都需要相同的飞机,有些可能更适合火车或货船。

事实上,为了应对AI模型的多样化,运营商正在摒弃将每个设施都建设到最大冗余度的做法,转而优先考虑盈利能力、电力效率,让每瓦特都发挥作用,并以保护长期回报的方式部署资本。了解不同AI模型和工作负载的性能需求有助于使数据中心与应用需求保持一致。

发展历程

在行业历史的大部分时间里,99.999%的正常运行时间是不可商量的。数据中心为那些即使几秒钟的停机时间都会产生直接后果的系统提供动力,如证券交易所、支付网络和电信基础设施。在这些环境中,停机可能产生极端的业务影响,几分钟内损失数百万美元或整个地区的关键服务中断。由于运营商无法始终预测哪些应用程序真正关键,许多设施默认按照最高弹性标准建设。

如今,AI改变了这种必要性。尽管许多人可能认为新的技术时代推动了更高的弹性要求,但现实是不同的模型、训练和推理过程都需要完全不同的服务级别。在某些情况下,设施不需要备用发电机、复杂的冗余系统或高级架构。AI训练工作负载不需要我们大多数人习以为常的正常运行时间。

这为什么重要?显然,行业正面临巨大压力和更多审查。需求超过供应,劳动力短缺延迟项目,成本超支仍然是持续挑战。同时,AI需求和要求正在显著加速。对每个AI部署默认采用超弹性、高级设计会加剧这些压力。多层冗余电力系统、广泛的备份基础设施和完全重复的环境推高了资本成本,并可能显著延缓容量上线速度。它们还引入了工作负载根本不需要的操作复杂性。

为什么AI工作负载不同

许多企业数据中心是为传统IT工作负载设计的,但AI创造了具有不同性能和正常运行时间需求的更广泛设施范围。例如,大规模AI训练园区的运行方式与行业建立的传统站点不同。这些GPU驱动的环境以巨大规模运行,电力可用性and冷却是主要约束。由于这些工作负载是分布式的并依赖检查点,它们的功能更像批处理,您可以设计更大的灵活性来更快地启动和运行容量。

相比之下,推理部署通常位于更接近人口中心的位置,支持用户定期交互的服务。由于这些与客户体验相关,正常运行时间和弹性期望仍然很高,基础设施应设计为确保持续可用性,无论是在站点级别还是在分布式弹性模型中。

这种需求的多样性导致我们拥有不同类型设施的组合,没有一种万能方法或对备用发电和冗余的高期望。在AI时代,更多的是关于"精准弹性",即冗余反映工作负载的实际行为方式,而不是依赖传统设计假设。

过度工程的成本

在各个方面过度设计弹性的错误会占用本可用于更多计算容量的资本,并延缓新站点的部署。

运营商应努力取得平衡。利用标准参考设计的可升级数据中心,以构建块的形式在场外制造,可以使基础设施部署得更快。通过标准化组件并在工厂环境中开发它们,运营商可以降低现场复杂性,更好地控制成本和时间表。这个选项使得在弹性、性能和上市速度之间做出明智决策变得更容易。

这种标准化与我们开始需要和看到的AI标准参考设计相辅相成。当底层组件标准化时,运营商可以更高效地组装不同类型的设施。标准化提供构建块,而参考设计决定如何组装它们。

灵活性是根本

AI基础设施发展太快,不适合僵化的设计假设,因此设计应具有灵活性以满足未来的需求。在未来几年中,AI环境可能涉及几种类型的设施。这些将从靠近电源建设的节能训练园区,到正常运行时间和延迟直接影响用户体验的分布式推理站点,以及支持AI和传统工作负载的混合环境。

就像飞机、火车和轮船的多样化交通网络一样,每种都服务于不同的目的并承担不同的权衡。但弹性应该始终是深思熟虑的设计选择,由工作负载、商业模式和它产生的收入塑造。

Q&A

Q1:为什么AI工作负载不需要传统数据中心那样的高正常运行时间?

A:AI训练工作负载采用分布式架构并依赖检查点机制,功能更像批处理。即使出现短暂中断,也可以从检查点恢复,不会像金融交易或电信服务那样造成立即的业务损失。不同的AI模型、训练和推理过程需要完全不同的服务级别。

Q2:什么是"精准弹性"设计理念?

A:"精准弹性"是指数据中心的冗余设计应反映工作负载的实际行为方式,而不是依赖传统的设计假设。针对不同AI应用场景设计相应的弹性级别,避免一刀切的高冗余设计,既能满足实际需求又能降低成本。

Q3:标准化设计如何加速AI数据中心建设?

A:通过标准化组件并在工厂环境中开发,可以制造标准构建块在场外预制,然后现场快速组装。这种方法降低了现场施工复杂性,更好地控制成本和时间表,使运营商能够根据不同AI应用需求高效组装各类设施。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

04/07

11:47

分享

点赞

邮件订阅