几十年来,数据中心的工程设计如同商业航空器一样,采用多层冗余架构,因为故障绝对不是选项,而且无法预测哪些应用程序会使用站点基础设施。大多数数据中心必须容纳不同类型的应用程序,并准备好备份以防出现问题。
然而,AI的增长带来了不同的现实情况——既不需要极端的弹性和近乎完美的正常运行时间,同时又受到供应链无法快速扩展的约束。这种转变使得数据中心行业看起来不再像航空业,而更像是更广泛的交通网络,针对AI训练或推理提供多种参考架构。因为并非每次出行都需要相同的飞机,有些可能更适合火车或货船。
事实上,为了应对AI模型的多样化,运营商正在摒弃将每个设施都建设到最大冗余度的做法,转而优先考虑盈利能力、电力效率,让每瓦特都发挥作用,并以保护长期回报的方式部署资本。了解不同AI模型和工作负载的性能需求有助于使数据中心与应用需求保持一致。
发展历程
在行业历史的大部分时间里,99.999%的正常运行时间是不可商量的。数据中心为那些即使几秒钟的停机时间都会产生直接后果的系统提供动力,如证券交易所、支付网络和电信基础设施。在这些环境中,停机可能产生极端的业务影响,几分钟内损失数百万美元或整个地区的关键服务中断。由于运营商无法始终预测哪些应用程序真正关键,许多设施默认按照最高弹性标准建设。
如今,AI改变了这种必要性。尽管许多人可能认为新的技术时代推动了更高的弹性要求,但现实是不同的模型、训练和推理过程都需要完全不同的服务级别。在某些情况下,设施不需要备用发电机、复杂的冗余系统或高级架构。AI训练工作负载不需要我们大多数人习以为常的正常运行时间。
这为什么重要?显然,行业正面临巨大压力和更多审查。需求超过供应,劳动力短缺延迟项目,成本超支仍然是持续挑战。同时,AI需求和要求正在显著加速。对每个AI部署默认采用超弹性、高级设计会加剧这些压力。多层冗余电力系统、广泛的备份基础设施和完全重复的环境推高了资本成本,并可能显著延缓容量上线速度。它们还引入了工作负载根本不需要的操作复杂性。
为什么AI工作负载不同
许多企业数据中心是为传统IT工作负载设计的,但AI创造了具有不同性能和正常运行时间需求的更广泛设施范围。例如,大规模AI训练园区的运行方式与行业建立的传统站点不同。这些GPU驱动的环境以巨大规模运行,电力可用性and冷却是主要约束。由于这些工作负载是分布式的并依赖检查点,它们的功能更像批处理,您可以设计更大的灵活性来更快地启动和运行容量。
相比之下,推理部署通常位于更接近人口中心的位置,支持用户定期交互的服务。由于这些与客户体验相关,正常运行时间和弹性期望仍然很高,基础设施应设计为确保持续可用性,无论是在站点级别还是在分布式弹性模型中。
这种需求的多样性导致我们拥有不同类型设施的组合,没有一种万能方法或对备用发电和冗余的高期望。在AI时代,更多的是关于"精准弹性",即冗余反映工作负载的实际行为方式,而不是依赖传统设计假设。
过度工程的成本
在各个方面过度设计弹性的错误会占用本可用于更多计算容量的资本,并延缓新站点的部署。
运营商应努力取得平衡。利用标准参考设计的可升级数据中心,以构建块的形式在场外制造,可以使基础设施部署得更快。通过标准化组件并在工厂环境中开发它们,运营商可以降低现场复杂性,更好地控制成本和时间表。这个选项使得在弹性、性能和上市速度之间做出明智决策变得更容易。
这种标准化与我们开始需要和看到的AI标准参考设计相辅相成。当底层组件标准化时,运营商可以更高效地组装不同类型的设施。标准化提供构建块,而参考设计决定如何组装它们。
灵活性是根本
AI基础设施发展太快,不适合僵化的设计假设,因此设计应具有灵活性以满足未来的需求。在未来几年中,AI环境可能涉及几种类型的设施。这些将从靠近电源建设的节能训练园区,到正常运行时间和延迟直接影响用户体验的分布式推理站点,以及支持AI和传统工作负载的混合环境。
就像飞机、火车和轮船的多样化交通网络一样,每种都服务于不同的目的并承担不同的权衡。但弹性应该始终是深思熟虑的设计选择,由工作负载、商业模式和它产生的收入塑造。
Q&A
Q1:为什么AI工作负载不需要传统数据中心那样的高正常运行时间?
A:AI训练工作负载采用分布式架构并依赖检查点机制,功能更像批处理。即使出现短暂中断,也可以从检查点恢复,不会像金融交易或电信服务那样造成立即的业务损失。不同的AI模型、训练和推理过程需要完全不同的服务级别。
Q2:什么是"精准弹性"设计理念?
A:"精准弹性"是指数据中心的冗余设计应反映工作负载的实际行为方式,而不是依赖传统的设计假设。针对不同AI应用场景设计相应的弹性级别,避免一刀切的高冗余设计,既能满足实际需求又能降低成本。
Q3:标准化设计如何加速AI数据中心建设?
A:通过标准化组件并在工厂环境中开发,可以制造标准构建块在场外预制,然后现场快速组装。这种方法降低了现场施工复杂性,更好地控制成本和时间表,使运营商能够根据不同AI应用需求高效组装各类设施。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。