据Uptime Institute最新年度研究显示,数据中心宕机事件已连续第五年下降,这一以韧性为根基的行业仍在坚守其核心原则。
Uptime研究部门本周发布的《2026年数据中心宕机分析报告》,综合运用该机构自身调查、媒体报道、企业声明及其他来源,对全行业停机情况进行了系统梳理。
然而,近期AI驱动的战略转型似乎将性能置于韧性之上,这引发了外界对整体宕机趋势能否持续向好的疑问。
尽管韧性建设已取得显著进展,宕机事件仍是数据中心行业难以回避的现实。近期引发广泛关注的事故包括AWS北弗吉尼亚设施发生的宕机事件,据报道起因是冷却系统故障。
Uptime Institute Intelligence研究执行总监安迪·劳伦斯在接受媒体采访时表示,从多年维度来看,报告的发现具有一定的内在逻辑。
"今年的结果没有呈现出什么戏剧性或意外的情况,宕机率已连续第五年出现小幅改善,"他说,"但与此同时,改善的速度正在放缓,并且有迹象表明一些可能引发更多宕机的新因素正在逐渐显现。这涵盖电网稳定性下降、网络威胁增加,以及愈发明显的电缆切断事件。"
外部因素推动宕机事件增加
最新Uptime数据以海底电缆被切断和网络攻击为典型案例,指出IT服务中断越来越多地源于外部基础设施故障,而非设施内部的问题。尽管全球范围内反数据中心情绪持续升温,但Uptime的劳伦斯表示,针对数据中心的蓄意破坏行为目前仍属罕见。
报告的其他重要发现还包括:
宕机成本持续攀升:连续第二年,五分之一的受访者表示损失超过100万美元。据Uptime统计,十分之一的受影响组织表示其最近一次宕机造成了严重或极其严重的影响。
电力故障仍是宕机的首要原因,但风险正在演变:Uptime指出,"UPS系统、转换开关和发电机的故障仍占主导地位;然而,电网约束加剧和高密度工作负载正在引入新的压力点。"
针对AI数据中心,劳伦斯解释说,AI优化设施的规模和设计有可能在未来推高宕机率。
"AI显然在推高机架密度,加大冷却系统的压力,"他说,"同时也在缩短冷却系统的持续运行时间。因此,在我们逐渐适应这些新技术之前,我们可能正在进入一个这一趋势趋于平稳、甚至略有上扬的阶段。"
AI数据中心与未来韧性挑战
Uptime宕机报告指出,由于许多AI站点仍相对较新,本次报告尚未对其进行直接涵盖,但相关内容将纳入未来研究。报告重点提出了几个亟待解答的关键问题:
考虑到大规模基础设施的高昂成本,大型运营商会为其训练站点选择怎样的韧性等级?这些站点发生故障的频率及原因目前尚未得到充分研究。AI站点可能因其IT工作负载的规模庞大和能耗密集而面临更高的宕机风险。
超大规模或超大数量的数据中心会对区域电网造成哪些系统性风险,运营商又如何加以应对?尽管相关缓解措施正在推进,但近年来系统性故障的发生概率似乎有所上升,且这一趋势可能持续。
大型现场持续供电设施的韧性表现将如何?在压力或用电高峰期间,需求响应和电力交易的使用日益增多,这可能带来额外风险。
Dell'Oro Group研究总监亚历克斯·科迪维尔认同AI基础设施的扩张规模正在迫使运营商重新审视韧性策略,但他表示这一过程早在云计算时代便已开始。
"规模正在倒逼冗余设计的重新思考,"科迪维尔表示,"多年来我们已经看到,随着规模扩大,运营商开始重新审视自身的韧性策略。超大规模运营商探索放弃UPS的设计方案已有将近十年——而UPS可以说是数据中心电力韧性的象征。"
他补充说,AI设施所采用的具体技术,从液冷到高压配电,也可能因其固有局限性以及技术相对较新这一引入风险的因素,对韧性产生影响。
"接下来是直流架构在电力系统中的更广泛应用,这将带来设备组合的重大转变,并引入一批仅在过去一两年内才进入市场的新型设备。"
表后电源引发的宕机风险
Uptime还将现场自发电规模的快速增长——主要由AI需求驱动——列为潜在韧性风险。这一判断乍看似乎有违直觉,毕竟自发电理应带来更强的能源自主性。
"现场电站可能会引入一类迄今为止在数据中心从未存在过的全新问题,"劳伦斯说,"一旦开始使用燃气轮机、大量电池或燃料电池……它们各自都有其特有的问题。"
分析机构Omdia企业基础设施高级研究总监弗拉德·加拉博夫表示,现场发电基础设施必须得到有效部署,才能应对AI固有的部分韧性风险。
"我能理解拥有自有电源为何被视为一种韧性保障,但关键在于要围绕燃气发电机组或燃气轮机对整个系统进行合理设计,"他说。
加拉博夫解释说,要使采用表后电源的数据中心在设计上具备韧性,需要充分考虑AI工作负载峰谷波动显著这一特性。若缺乏相应应对措施,发电机可能因AI负载的不可预测性而受损。
"需要配置一组电容器组,用于吸收GPU在稳态运行期间持续发生的快速瞬态波动,"他说。
Uptime确认将于近期发布更多针对AI数据中心韧性的专项研究。相关报告的执行摘要及网络研讨会内容已在该公司官网上线。
Q&A
Q1:Uptime Institute的数据中心宕机报告有哪些主要发现?
A:报告显示数据中心宕机事件已连续第五年下降,但改善势头有所放缓。主要发现包括:五分之一的受访者表示宕机成本超过100万美元;电力故障仍是首要原因,但电网约束加剧和高密度工作负载带来新压力;外部因素如海底电缆被切断和网络攻击造成的影响日益突出。此外,AI数据中心的快速扩张被视为未来宕机风险上升的潜在诱因。
Q2:AI数据中心为什么会对整体韧性构成威胁?
A:AI数据中心正在推高机架密度,加大冷却系统负荷,并压缩冷却系统的持续运行时间。液冷、高压配电及直流架构等新技术的引入,因其技术相对较新而带来额外风险。此外,AI工作负载波动显著,对现场供电系统形成不规则冲击,若缺乏电容器等缓冲装置,发电设备可能因此受损。
Q3:数据中心现场自发电如何影响运营韧性?
A:现场自发电虽然提升了能源自主性,但也引入了新的风险。燃气轮机、电池和燃料电池等设备各有其固有问题,设计不当可能反而降低可靠性。AI工作负载的峰谷特性会产生快速瞬态波动,需要配置专用电容器组加以吸收,否则可能对发电设备造成损害。因此,整个供电系统需要围绕发电设备进行系统性设计,而非简单部署了事。
好文章,需要你的鼓励
本田汽车因电动车战略失败,创下上市以来最大亏损,电动车相关损失高达1.45万亿日元(约92亿美元)。本田CEO宣布全面调整战略:放弃2040年淘汰燃油车计划,转而推进混动路线,计划到2028年推出两款新混动车型原型,并在本十年末全球发布15款新混动车型。与此同时,本田将暂停150亿美元的加拿大电动车工厂建设,并将俄亥俄州电动车产线改为混动和燃油车生产。
中山大学等机构发现,多模态AI在同一道物理题因表达形式改变时推理能力明显下滑,视觉数值与物理实体的绑定是最核心瓶颈,且遮黑训练图片同样能提升测试成绩。
IEEE信号处理学会与《IEEE信号处理精选主题期刊》联合发布专题征稿,聚焦"网络化AI"领域。该研究方向旨在让机器人和AI系统摆脱孤立运行模式,通过互联网络实现集体学习、实时协同优化。研究涵盖多智能体机器人、分布式AI、边缘智能、自动驾驶等方向,探索系统在无需人工干预的条件下自主进化的可能性。论文征集截止日期为2026年6月15日,成果将于2027年1月发布。
这项由纽约大学与弗拉托恩研究所开展的研究证明,允许可学习嵌入时,Transformer只需对数维度就能存储大量事实,MLP充当通用关系选择器而非知识查找表,思维链可绕开多跳推理的容量瓶颈。