对于 2025 年及以后的数据中心建设项目规划与十年前有着显著的不同。然而,那些曾经成功支持行业度过快速增长期的规划和建设策略,依然可以为未来发展提供参考。
2022 年底 ChatGPT 的出现引发了科技公司间前所未有的 AI 解决方案开发竞赛,从根本上重塑了数据中心基础设施和能源市场。这一转变的核心是 AI 工作负载,主要包含训练和推理两种操作。这些操作主要依赖图形处理单元 (GPU),相比传统的中央处理器 (CPU),GPU 在处理 AI 所需的并行计算方面表现更为出色。
AI 训练操作需要巨大的计算能力,利用同步的 GPU 阵列来处理海量数据集。这些训练系统对基础设施提出了重大需求,特别是在功耗方面,每机架通常需要 90 到 130 kW 的功率。如此密集的能源使用需要强大的冷却系统来维持最佳运行状态。相比之下,已训练模型执行具体任务的推理操作耗电量要低得多,每机架通常在 15 到 40 kW 之间。举例来说,普通的 Google 搜索大约使用 0.28 瓦时的能量,而一次 ChatGPT 查询的能耗约为其四倍。
数据中心基础设施的规模已经发生了巨大变化以满足这些需求。现代设施现在需要单栋建筑就消耗 100 兆瓦的电力,整个园区的用电量接近 1 吉瓦 - 这与过去将 100 兆瓦分布在多个建筑中的设施形成鲜明对比。GPU 不断增加的功率密度也使得冷却方式从传统的空气冷却转向了液冷解决方案,后者可以更有效地直接从 GPU 单元散热。
考虑到当前形势,未来数据中心发展必须考虑几个关键因素。了解设施是主要用于训练还是推理操作对于正确设计至关重要。电力基础设施必须满足每栋建筑超过 100 兆瓦的极高初始需求,并能够扩展到每个园区 1 吉瓦的规模。高压系统变得越来越必要,以管理增加的电力需求,同时解决电缆的散热限制。
冷却系统必须进化以应对建筑和数据机房更大的需求,同时 IT 环境因 GPU、CPU、存储和网络组件的混合而变得更加复杂。这种复杂性需要采用混合冷却方法,将传统空气冷却系统用于某些组件,而对 GPU 硬件采用液冷。此外,光纤需求显著增加,影响着设施空间和重量考虑。
数据机房本身也在演变,需要更大的垂直空间来容纳机架上方额外的基础设施层。这些层包括母线槽、线缆桥架、光纤通道、消防系统,以及包含供水管道和技术用水基础设施的主要制冷系统。
速度是当前竞赛的一个特点,因此,设计和建设周期需要进一步缩短,不仅要对电气和机械层面进行预制,还要对整个建筑进行预制。这是减少建设规划、活动和劳动力安全方面进一步阻力的关键。
现有数据中心在适应新的 AI 需求方面面临挑战,特别是对于推理工作负载。这种适应通常涉及电气系统改造和液冷能力的改装,这让人想起 2000 年代初期和中期的数据中心演变。然而,训练设施通常需要新的场地来处理大规模电力需求和严格的网络规范。
尽管最近的 Nvidia GPU 在训练和推理操作的成本和性能方面都显示出令人印象深刻的改进,但整体电力消耗仍然随着使用量的增加而成比例增长,符合杰文斯悖论。这一趋势要求电力和冷却技术以及设计方法不断发展。
AI 行业的演变与摩尔定律相似,强调紧密联网的机架以最小化能源浪费并优化数据处理速度。这种转变实际上使 AI 数据中心本身成为大规模 GPU 单元。
AI 的快速发展在能源市场动态中造成了巨大转变,从稳定的年度增长转向了急剧的指数级增长。这种激增导致了行业的几项适应性变化,包括:
- 在能源资源丰富的偏远地区建立 AI 数据中心 - 改造退役发电厂 - 开发专用于数据中心的发电厂 - 加强公用事业公司与技术公司之间的合作,投资现有和未来发电技术,包括核能
数据中心基础设施的扩张面临着建筑行业限制带来的额外挑战。这包括制造能力的限制、建筑商和专业分包商的短缺,以及缺乏能够满足现代数据中心技术需求的熟练工人。
尽管面临这些重大挑战,但业界仍保持乐观态度,认识到 AI 的变革潜力,并欢迎创新和适应这些新需求的机会。
数据中心基础设施的演变是 AI 更广泛发展的关键因素,需要技术公司、公用事业提供商和建筑专家之间持续合作,以满足这个快速扩张领域不断增长的需求。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。