数据中心深度解析：AI数据中心的物理特性是否让本地部署不再可行？

AI工作负载对GPU的散热需求已超越传统风冷极限，液冷技术正成为数据中心强制标准。单颗GPU功耗突破700W后，直接液冷不再是可选项。与此同时，800V直流配电架构正取代传统低压交流方案。这一变革使企业自建本地数据中心的成本与复杂度急剧攀升。对于CIO而言，大规模模型训练宜外包至超大规模云服务商，而本地推理场景可通过模块化液冷方案实现，混合部署或将成为企业AI基础设施的主流路径。

人工智能处理中图形处理单元（GPU）对电力和冷却的巨大需求，正在使直接芯片液冷成为必需选项。

这是从传统数据中心向AI工厂转变的关键因素。

这意味着数据中心格局将发生重大变化，可能标志着本地数据中心的终结，因为成本和复杂性都已超出企业自建能力的范围。

这些是数据中心设备供应商施耐德电气上周举办的活动中的核心要点，行业人士在会上讨论了数据中心领域即将到来的未来，并参观了TeraWulf在安大略湖畔正在建设的750兆瓦站点。

在这组四篇系列文章中，我们将探讨TeraWulf站点的快速建设进度、GPU功率的巨大飞跃如何决定数据中心设计变革、它们对电网和用水的影响，以及锈带如何让位于AI工厂的全景图。

AI驱动的能源消耗大幅增长带来了数据中心设计的阶段性变革。其核心是为GPU供电和冷却的需求，这在传统风冷数据中心中并不必要。因此AI工厂应运而生。

数据中心冷却曾是工业暖通空调设计中可预测的工作，将服务器装入机架并用冷空气吹过机箱即可。AI改写了这个故事。

驱动AI革命的硬件——尤其是GPU——在热密度和电密度方面的运行水平，使传统风冷方法变得过时。大语言模型训练和推理的硅芯片需求无法通过更多或更快的风扇来维持。

相反，行业面临一个拐点，必须采用直接芯片液冷技术，并将机架级电力传输转变为800伏直流电（VDC）。

液冷成为强制要求

"液冷不是一个选项，而是强制性的，"施耐德电气旗下热管理公司Motivair的首席执行官Rich Whitmore说，该公司于2024年被后者收购。"这是所有这些高压处理器的基准。转折点出现在大约700瓦处理器（GPU）时，比如H100。那是在风冷物理定律的规则弯曲与现实之间的交叉点。人们根本没有选择了。"

支撑这一转变的物理原理是，当单个处理器超过700瓦阈值时，空气无法移动得足够快或容纳足够的热能来防止硅芯片降频或熔化。

虽然历史上企业机架平均功率为10千瓦至50千瓦，但现代AI训练环境通常部署140千瓦和150千瓦的集群。200千瓦的系统即将推出，兆瓦级机架的参考架构已为本十年末做好准备。

这种能量集中度将100%的电力输入转化为热量，占地面积仅相当于一台冰箱。

矛盾的是，这种转变释放了热力学效率。传统数据中心需要耗能的制冷设备来提供高度冷却的空气。液冷系统以更温暖的流体温度运行，允许运营商使用高温冷却器或流体到空气的干式冷却器。

"风冷数据中心就像老式大众发动机，负载产生的热量直接排放到空间中，"施耐德电气冷却技术和产品开发负责人Tuan Hoang说。"液冷就像现代汽车。散热器从发动机中移除热量。当你转向这些闭环散热器时，冷却AI工厂实际上不需要消耗水。"

800伏直流电成为新标准

虽然热限制正在将流体动力学引入数据中心白色空间——IT硬件所在的创收区域——但驱动200千瓦至400千瓦服务器配置所需的电流将压垮现有的低压配电框架。

到目前为止，云设施依赖于开放计算项目（OCP）标准，将交流电（AC）输送到机架，内部电源将其转换为48伏或54伏直流电来供应各个服务器。但是，随着机架密度攀升超过200千瓦，事情在机械和结构上变得不可能。

"当你尝试使用该架构时，你开始失去余地，"施耐德电气AI和数据中心首席倡导者Steven Carlini说。"这实际上是一个机械和电气问题。现在，你有八根电源线进入这些高密度机架。当你接近兆瓦时，你需要32根更大的电缆进入这个东西，这是不切实际的。"

为了规避这一瓶颈，数据中心设计正在果断转向800伏直流电供电。更高的电压等于更少的电流，等于更小的电缆。通过将配电架构升级到高压直流电，数据中心运营商可以减少进入机柜的铜线的厚度、重量和复杂性。

这种电气转型需要新的供电设计，可以来自为混合环境和棕地改造设计的所谓"边车架构"，将电力转换基础设施从主IT机架中取出并放置在计算硬件旁边，或者针对绿地站点的集中式配电，其中交流到直流转换在设施级别、配电间或行尾的上游进行。

硅级变化的连锁效应

将数据中心重新设计到硅级别从根本上改变了基础设施的设计和维护方式。当计算集群以当前速度扩展时，微小的电气异常或热量下降会带来灾难性的商业后果。

"数据中心正在发生根本性变化，"施耐德电气安全电源和数据中心执行副总裁Manish Kumar说。"我们认为数据中心正在成为规模和复杂性巨大的AI工厂。你必须重新想象如何设计、建造或将数据中心推向市场，并在整个生命周期中全面思考数据中心。"

这种工业复杂性始于物理部署开始之前的数字孪生建模。因为AI开发人员每天GPU闲置等待电力都会面临巨额财务罚款，提前模拟热负载和电气选择性可以降低资本支出风险并压缩部署时间表。

同时，过渡到800伏直流电框架引入了系统保护问题。与交流系统不同，高压直流电路缺乏更容易断开电路的零点。这需要开发专门的固态断路器，以便如果在刀片级别发生单个故障，只有该特定断路器跳闸，而不会导致整个价值数百万美元的训练集群瘫痪。

数据中心正处于十字路口。运营商和企业基础设施面临战略性分叉：放弃传统风冷和低压电力传输，或者随着AI时代的物理现实将现有基础设施抛在后面而可能面临淘汰。

AI直接芯片冷却是否终结了本地数据中心？

首席信息官们一直处于一种舒适的平衡状态，企业数据模型演变为混合形式。在这种模式中，非关键的弹性工作负载迁移到公共云，而敏感的核心业务系统、专有数据集和可预测的处理负载则保留在企业内部的传统风冷本地服务器机房中。

AI可能打破这种模式。随着从标准中央处理器计算转向加速GPU集群，现代AI硬件的物理要求无法与传统本地设计兼容。

随着下一代硅芯片要求强制性的直接芯片液冷和前所未有的功率密度，这是否意味着本地企业数据中心的终结？

液冷对大多数企业不可行？

正如我们所见，基础设施拐点的根源在于AI硬件的热强度。

对于行业中的一些人来说，部署液冷框架所需的复杂性和资本支出意味着本地AI对绝大多数企业来说是不可行的。

过去，企业可以建造高质量的数据中心建筑，安装电气和冷却基础设施，并在15年内可靠地运行三代、四代甚至五代连续的IT硬件更新，而无需改变底层设施。

AI硬件打破了这种模式。芯片设计的加速意味着每一代连续的AI处理器都带来新的物理尺寸、功率配置和流体流动要求，这些与仅在一年前建造的基础设施根本不兼容。

"在数据中心的旧时代，你会建造建筑和设施、电力和冷却系统，你可以进行三次、四次和五次IT更新，"Cloudflare客户经理Chris Burnett说。"今天的数据中心……很少有人会为下一代建造双倍规模的电力和冷却。你是为今天建造的；这极具挑战性。"

对于企业首席信息官来说，商业影响是建造能够处理200千瓦机架的本地数据中心需要数百万英镑的专业前期资本支出。如果该定制设施设计在单个IT生命周期内就变得过时，因为下一代硅芯片需要完全不同的流体动力学或更高的电压，那么财务投资回报就会蒸发。

因此，外包给大型公共云超大规模提供商或专业多租户托管提供商的论点变得令人信服。

还是所有人的民主化部署？

其他人则认为，宣布企业数据中心死亡为时过早。从这个角度来看，企业AI的长期未来不会仅由单一的基础模型训练组成——这无疑属于专业的超大规模环境。相反，普通企业的真正商业价值在于在专有企业数据上微调更小、高度安全、特定领域的模型。

"企业会部署直接液冷还是这将超出他们的能力范围？我认为他们肯定会，"施耐德的Carlini说。"他们肯定会转向直接芯片液冷。"

他说，随着直接芯片液冷技术的成熟，市场将经历工业标准化过程，基础设施提供商将提供模块化、自包含的"即插即用"液冷机柜，专门设计用于适应现有的企业占地面积。

Carlini强调，一旦跨越最初的机械障碍，液体系统固有的热力学效率就会对企业有利。"凭借液冷的效率和你可以运行的温度，用水量要少得多，"他说。

通过以明显更温暖的流体温度运行，这些系统消除了对大型、复杂的外部制冷装置的需求，可能使本地化高密度计算在运营上比传统风冷系统更高效。

混合模式可能是关键

同时，还有可能采用围绕AI生命周期阶段构建的混合方法。

对于资源密集型的训练阶段——数千个GPU必须紧密集群在一起，在数周或数月内摄取PB级数据——企业数据中心绝对不可行。这项工作将外包给拥有原生800伏直流电配电和高容量液冷回路的专业超大规模或托管环境。

但是一旦模型训练完成，运营重点完全转向推理，每次查询所需的计算密度要低得多，并且必须在物理上靠近公司的运营数据存储，以最小化网络延迟并遵守数据保护法规。

这就是Carlini描述的本地液冷服务可能找到归宿的地方。在这种情况下，企业数据中心将被改造以支持紧凑、高效的液冷推理区域。

首席信息官应审核其需求

直接芯片液冷的出现已经瓦解了传统的数据中心手册。传统的企业服务器机房无法适应现代加速硅芯片的物理特性。

试图将AI工作负载强行塞入传统风冷配置的首席信息官可能面临热降频、能源浪费和成本飙升。但同样，那些试图建造本地超大规模数据中心复制品的人也面临基础设施资本锁定的风险，这些基础设施可能在下一代芯片时就过时了。

前进的道路需要严格的、应用驱动的基础设施方法。首席信息官应该将其AI应用管道与高密度训练需求和本地化推理分开审核。

混合模式可以利用专业托管提供商的规模来完成繁重的工作，同时准备其内部团队采用标准化的闭环液体系统进行安全推理。

Q&A

Q1：为什么GPU必须使用液冷技术？

A：当单个GPU处理器功率超过700瓦阈值时，空气无法移动得足够快或容纳足够的热能来防止硅芯片降频或熔化。现代AI训练环境的机架功率通常达到140-150千瓦，甚至200千瓦，传统风冷方法已经完全过时，液冷成为强制性要求而非可选项。

Q2：800伏直流电供电相比传统供电有什么优势？

A：随着机架密度攀升超过200千瓦，传统低压配电需要大量粗大电缆，当接近兆瓦级时需要32根甚至更多大型电缆，这在机械和结构上不切实际。800伏直流电供电采用更高电压、更少电流的方式，可以大幅减少进入机柜的铜线厚度、重量和复杂性。

Q3：本地数据中心是否会因为AI技术而完全消失？

A：不会完全消失，更可能是混合模式。资源密集型的AI模型训练需要外包给专业的超大规模数据中心，但模型训练完成后的推理阶段，企业仍需要在本地部署以减少网络延迟并符合数据保护法规。企业数据中心将被改造为支持紧凑高效的液冷推理区域。

来源：Computer Weekly

0赞

好文章，需要你的鼓励

数据中心深度解析：AI数据中心的物理特性是否让本地部署不再可行？

来源：Computer Weekly

2026

05/28

15:06

分享

点赞

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

Tensormesh获Nvidia、AMD和CoreWeave投资，解决AI模型内存问题

Unravel Data推出面向Databricks、Snowflake和BigQuery的自主优化引擎

YouTube将AI标签放在用户真正能看到的位置

ElevenLabs音乐生成模型升级，可在单曲中实现跨风格切换

Google推出Gemini 3.5 Flash，推动AI智能体深入企业工作流程

Roku推出AI驱动的主屏幕重新设计

谷歌为Workspace应用推出渐变图标设计

Motive推出物理AI运营平台重大升级

英国NatWest银行引入AI技术升级贸易融资业务

当眼科医生配错眼镜处方时，AI帮我解决了问题

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: