对于 2025 年及以后的数据中心建设项目规划与十年前有着显著的不同。然而,那些曾经成功支持行业度过快速增长期的规划和建设策略,依然可以为未来发展提供参考。
2022 年底 ChatGPT 的出现引发了科技公司间前所未有的 AI 解决方案开发竞赛,从根本上重塑了数据中心基础设施和能源市场。这一转变的核心是 AI 工作负载,主要包含训练和推理两种操作。这些操作主要依赖图形处理单元 (GPU),相比传统的中央处理器 (CPU),GPU 在处理 AI 所需的并行计算方面表现更为出色。
AI 训练操作需要巨大的计算能力,利用同步的 GPU 阵列来处理海量数据集。这些训练系统对基础设施提出了重大需求,特别是在功耗方面,每机架通常需要 90 到 130 kW 的功率。如此密集的能源使用需要强大的冷却系统来维持最佳运行状态。相比之下,已训练模型执行具体任务的推理操作耗电量要低得多,每机架通常在 15 到 40 kW 之间。举例来说,普通的 Google 搜索大约使用 0.28 瓦时的能量,而一次 ChatGPT 查询的能耗约为其四倍。
数据中心基础设施的规模已经发生了巨大变化以满足这些需求。现代设施现在需要单栋建筑就消耗 100 兆瓦的电力,整个园区的用电量接近 1 吉瓦 - 这与过去将 100 兆瓦分布在多个建筑中的设施形成鲜明对比。GPU 不断增加的功率密度也使得冷却方式从传统的空气冷却转向了液冷解决方案,后者可以更有效地直接从 GPU 单元散热。
考虑到当前形势,未来数据中心发展必须考虑几个关键因素。了解设施是主要用于训练还是推理操作对于正确设计至关重要。电力基础设施必须满足每栋建筑超过 100 兆瓦的极高初始需求,并能够扩展到每个园区 1 吉瓦的规模。高压系统变得越来越必要,以管理增加的电力需求,同时解决电缆的散热限制。
冷却系统必须进化以应对建筑和数据机房更大的需求,同时 IT 环境因 GPU、CPU、存储和网络组件的混合而变得更加复杂。这种复杂性需要采用混合冷却方法,将传统空气冷却系统用于某些组件,而对 GPU 硬件采用液冷。此外,光纤需求显著增加,影响着设施空间和重量考虑。
数据机房本身也在演变,需要更大的垂直空间来容纳机架上方额外的基础设施层。这些层包括母线槽、线缆桥架、光纤通道、消防系统,以及包含供水管道和技术用水基础设施的主要制冷系统。
速度是当前竞赛的一个特点,因此,设计和建设周期需要进一步缩短,不仅要对电气和机械层面进行预制,还要对整个建筑进行预制。这是减少建设规划、活动和劳动力安全方面进一步阻力的关键。
现有数据中心在适应新的 AI 需求方面面临挑战,特别是对于推理工作负载。这种适应通常涉及电气系统改造和液冷能力的改装,这让人想起 2000 年代初期和中期的数据中心演变。然而,训练设施通常需要新的场地来处理大规模电力需求和严格的网络规范。
尽管最近的 Nvidia GPU 在训练和推理操作的成本和性能方面都显示出令人印象深刻的改进,但整体电力消耗仍然随着使用量的增加而成比例增长,符合杰文斯悖论。这一趋势要求电力和冷却技术以及设计方法不断发展。
AI 行业的演变与摩尔定律相似,强调紧密联网的机架以最小化能源浪费并优化数据处理速度。这种转变实际上使 AI 数据中心本身成为大规模 GPU 单元。
AI 的快速发展在能源市场动态中造成了巨大转变,从稳定的年度增长转向了急剧的指数级增长。这种激增导致了行业的几项适应性变化,包括:
- 在能源资源丰富的偏远地区建立 AI 数据中心 - 改造退役发电厂 - 开发专用于数据中心的发电厂 - 加强公用事业公司与技术公司之间的合作,投资现有和未来发电技术,包括核能
数据中心基础设施的扩张面临着建筑行业限制带来的额外挑战。这包括制造能力的限制、建筑商和专业分包商的短缺,以及缺乏能够满足现代数据中心技术需求的熟练工人。
尽管面临这些重大挑战,但业界仍保持乐观态度,认识到 AI 的变革潜力,并欢迎创新和适应这些新需求的机会。
数据中心基础设施的演变是 AI 更广泛发展的关键因素,需要技术公司、公用事业提供商和建筑专家之间持续合作,以满足这个快速扩张领域不断增长的需求。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。