当前正值数据中心行业发展的关键时期。主流受众比以往任何时候都更多地在讨论数据中心、能源、AI以及我们数十年来一直在悄悄建设的所有事物。我们比以往任何时候都更需要成为这个行业的积极发声者。
在过去的几个月里,我基本上一直在飞机上度过。参加会议、访问数据中心、合作伙伴会议、工厂参观、炉边谈话、主题演讲。沿途我在笔记本上记录了完美捕捉当前行业发展速度和强度的趋势、数字和对话。
我想与大家分享这些笔记,并解释它们对于电力、容量、弹性以及数据中心在AI驱动世界中不断演变的作用的未来意味着什么。
电力、核能以及每机架千瓦数的误区
让我们从内华达州开始。Switch创始人兼首席执行官Rob Roy明确指出,AI发展并非由车库里的爱好者推动,而是由拥有客户、收入和真实需求的万亿美元公司推动。英伟达和微软向Anthropic投入数十亿美元就说明了一切。虽然有人可能说这是泡沫,但我真的不认为会朝那个方向发展。
这与我们在没有客户的情况下建设网络的互联网泡沫不同。这次我们有客户,他们需要电网前所未见规模的计算。
一些重要数字令我印象深刻。Switch现在消耗内华达州三分之一的电力。没错,是整个州电力的三分之一。
然而,在内华达州,去年住宅电费实际上还下降了。Rob指出了我们许多人一直在私下讨论的观点:如果设计得当,数据中心可以稳定电网并支持当地能源市场。我们可以在夜间吸收多余电力,削减峰值,成为合作伙伴而非反派。
然后我们谈到了核能。Switch与Oklo的合作是我们领域最引人入胜的发展之一。需要明确的是,Switch并非唯一一家进军核能的公司。
Rob的信息很简单:没有核能就没有AI的未来。我们面前的曲线很陡,GPU将长期全天候工作。没有增加清洁基载发电,就不可能实现这种水平的计算。
现在是我最喜欢的部分。我预计我们可能会听到一些反馈意见。当然,这总是受欢迎的。Rob在他看来,指出了行业最大的误区之一:每机架千瓦数。我们都听到一些运营商为了营销幻灯片而引用不可能的密度。但现实是,面向未来的AI机架可以轻松拉动数百千瓦,在某些情况下,Switch正在设计高达1.7兆瓦的机架。这些不再是机架,而是工业负载。我认为他说得对。我们距离完全重新想象数据中心机架的外观只有几年时间。
这对我们意味着什么:教育。Rob说他要去华盛顿解释这个故事,我们都应该这样做。也许不是华盛顿,但你的声音对你的社区来说至关重要,确保人们了解我们所做的事情。数据中心不是电网的敌人,我们是其现代化的基石。
施耐德电气创新峰会:AI工厂的崛起
在施耐德电气创新峰会上,信息类似但角度不同。施耐德展示了一些设计令人印象深刻的AI工厂,包括推动142千瓦及以上功率的机架。液体冷却随处可见,我相信你不会感到惊讶。这就是新常态。数字化、自动化和电气化正在融合为一个单一的生态系统,这将把美国电网推向极限。
一个令我印象深刻的重要统计数据:到2030年,数据中心行业预计将消耗超过200吉瓦的电力,这是前所未见的需求水平。你能想象吗,仅数据中心就需要200吉瓦的电力。
这种加速是由AI训练集群、高密度计算以及各个地区正在进行的数字基础设施大规模建设推动的。按这个速度,电力可用性成为增长的决定性限制因素,影响设施的建设地点、上线速度以及运营商的长期弹性规划。
达到200吉瓦需要围绕发电、电网整合、微电网和能源园区的新思维,因为传统公用事业模式无法跟上AI规模的需求。这是围绕电力创新不再可选而是对我们整个行业未来至关重要的时刻。
对我们来说,工业界最大的参与者正在为一个能源稀缺、数据中心负载巨大、预测性数字孪生不再可选而是必需的世界做准备。电网正在变成全向的,电动汽车正在成为存储资产,未来的数据中心既是负载也是发电机。
对所有这些面向未来的表述是:AI将在运营商看到任何警报之前很久就运行这些生态系统。
Crusoe、Stargate和弹性的新含义
在亚利桑那州的AIDC会议上,Crusoe的Mark Milliet向我们介绍了我见过的最疯狂的项目之一。阿比林的Stargate园区开始时是两栋100兆瓦的建筑,现在是八栋建筑,总计1.2吉瓦。从角度来看,那是一个小城市的规模。他们在十八个月内建成了整个项目。
设计中最创新的部分之一是星形配置。每栋480,000平方英尺的建筑都从中央主干延伸出来。这种几何形状不仅仅是为了方便,而是专门设计来克服光纤约束。通过集中网络核心并向外分支计算建筑,Crusoe最小化了长途光纤运行,减少了延迟,避免了通常在这种规模校园中出现的带宽瓶颈。
一切都辐射回到一个紧密、受控的核心,在那里可以管理、保护和扩展光纤,而无需与传统布局的蔓延作斗争。
现在是我希望每个人都能听到的部分。只有百分之二十的工作负载需要发电机备份。仅仅百分之二十。这百分之二十是网络核心,不是GPU。GPU可以承受高温,因为它们的设计、电力架构和热存储。这是一种根本不同的弹性方法,随着密度的增加,我们会看到更多这样的设计。
Stargate的未来迭代将转向800伏直流配电和垂直设计,因为水平土地正在耗尽。他们的目标是在十五个月内交付200兆瓦。这是我们都在竞争的新速度和强度水平。
这对我们意味着什么:弹性正在改变。每个电路都需要完整发电机备份的想法正在消失。我们正在进入一个保护网络核心、维持热稳定性并让AI机架度过短期事件的世界。这降低了成本,减少了排放,并加速了交付。
Q&A
Q1:数据中心现在消耗多少电力?未来会增长到什么程度?
A:目前Switch消耗内华达州三分之一的电力。到2030年,整个数据中心行业预计将消耗超过200吉瓦电力,这是前所未见的需求水平,相当于一个小城市的用电量。
Q2:为什么说没有核能就没有AI的未来?
A:因为AI需要的计算规模是电网前所未见的。GPU将长期全天候工作,如果没有增加清洁基载发电(如核能),就不可能实现这种水平的计算需求。传统能源无法支撑如此巨大的电力消耗。
Q3:AI机架的电力需求与传统机架有什么不同?
A:面向未来的AI机架可以轻松拉动数百千瓦电力,在某些情况下,Switch正在设计高达1.7兆瓦的机架。这些已经不再是传统意义上的机架,而是工业级负载,完全改变了数据中心机架的概念。
好文章,需要你的鼓励
Anthropic推出Claude Code的Slack集成功能,让开发者能直接在聊天线程中委托编程任务。这项测试功能于周一以研究预览版形式发布,基于现有Slack集成增加了完整工作流自动化。开发者现在可以标记@Claude启动完整编程会话,Claude会分析消息确定合适的代码库,在线程中发布进度更新并分享审查链接。这反映了行业趋势:AI编程助手正从IDE迁移到团队协作工具中。
波恩大学研究团队首次量化AI训练的材料成本,发现一块GPU含32种元素,93%为重金属。训练GPT-4需消耗约7吨金属材料,其中多为有毒重金属。研究建立了从计算需求到硬件消耗的评估框架,发现通过软硬件优化可减少93%的资源消耗。该研究揭示了AI发展的隐性环境代价,呼吁行业从规模竞赛转向效率革命,实现可持续发展。
AI发展推动数据中心行业迎来前所未有的挑战与机遇。Switch公司消耗内华达州三分之一电力,展现了AI对电力需求的巨大规模。核能成为AI未来发展的关键,单个AI机架功耗可达1.7MW。预计到2030年,数据中心行业将消耗200GW电力。创新的星形配置设计和差异化备电策略正在重新定义数据中心的弹性架构,仅20%的工作负载需要发电机备份。
南开大学团队构建了迄今最大规模的结肠镜AI数据库COLONVQA,包含110万视觉问答条目。他们发现现有AI模型存在泛化能力不足和容易被误导等问题,因此开发了首个具备临床推理能力的结肠镜AI模型COLONR1。该模型采用多专家辩论机制生成推理数据,在综合评估中准确率达56.61%,比传统方法提升25.22%,为智能结肠镜诊断从图像识别向临床推理的转变奠定了基础。