微软与谷歌如何规划和部署AI工作负载

在Data Center World 2026大会上,微软M365容量管理高级总监Julianne Carroll与谷歌能源总监Shen Jackson分享了超大规模数据中心的工作负载规划策略。两家公司均采用区间预测替代单点估算,尽可能推迟关键决策节点,并构建模块化、可互换的基础设施以应对AI带来的资源比例变化。同时,两家公司强调自动化与人工判断相结合,通过每周动态调整保持规划的灵活性与适应性。

华盛顿特区——在超大规模数据中心环境中,工作负载规划已从固定路线图转变为持续动态调整,因为当前的需求变化速度已经超过了新基础设施的上线速度。

在2026年数据中心世界大会"工作负载落地:超大规模运营商如何规划、扩展与应对"专题会议上,微软M365容量管理高级总监朱丽安·卡罗尔(Julianne Carroll)与谷歌能源总监沈·杰克逊(Shen Jackson)分别介绍了各自设计的规划体系——这套体系的核心目标是消化需求波动,而非消除波动本身。

区间预测取代精确点估计

卡罗尔指出了问题的核心所在:需求变化过快,精确的点估计已难以适用。"我们规划的是一个范围区间,而不是某个具体数值,"她表示,微软现在对潜在结果建立多种范围模型,而非单一预测。

这一方法涵盖了她所称的"非常规"需求——即新功能上线、区域扩张以及超出历史数据范围的业务模式。为应对这类需求,微软加强了产品、工程与供应链团队之间的反馈协同。"产品团队与工程团队、供应链团队之间的整合比以往任何时候都更紧密,"卡罗尔说,"我们有更多接触点和自动化手段……以实现最大程度的灵活性。"目前,规划评审至少每周进行一次,并随信号变化随时调整。

谷歌的杰克逊则从时间与掌控力的角度描述了类似的约束。"对于一年内发生的事,我们其实没有太多能做的,"他说,"但对于一到两年后的事,我们有很大的调整空间。"由此形成了一套基于区间与概率的规划模型,并具备足够的弹性来吸收后期变化,而不会打乱整体节奏。

推迟绑定决策

两家公司都在尽量将绑定性决策延迟到最后时刻,并在基础设施设计上为此提供支撑。

卡罗尔提到了"以可选性和可互换性为设计原则"的做法,通过模块化架构,使工作负载在流程后期仍可灵活迁移。"我们的规划周期更短,调整频率也比以前更高,"她说。

杰克逊描述了谷歌的类似做法:即使是接近建设完成的设施,最终的容量部署方式也可能发生变化。"我们尽量将决策时间点推迟到尽可能接近上线日期,"他说,"一旦从虚拟阶段转为实体落地,成本就会大幅上升。"

这种方式要求基础设施能够支持多种工作负载类型。在谷歌,这意味着需要在GPU与自研TPU之间实现平衡,两者在资源需求上往往存在差异。"我们必须设计可互换的数据中心,"杰克逊说。

AI正在重塑资源配比与规模边界

AI工作负载正是这些变化的根本驱动力。卡罗尔表示,长期以来关于计算、存储与网络资源配比的惯性假设已不再成立。"随着我们推出Copilot,这些长期形成的假设已经发生了根本性改变,"她说。需求的衡量维度不再仅仅是用户数量,而是涵盖功能使用情况、消费模式和模型行为等多重因素。

在基础设施层面,杰克逊表示超大规模运营商的思维已经超越了单个数据中心的范畴。"我们考虑的不再只是一座数据中心,"他说,"而是将整个园区视为一台横向扩展的计算机。"大型AI训练集群如今跨越多个设施,需要在电力、冷却和网络方面实现高度协同,这也进一步强化了灵活、延迟绑定设计的必要性。

保持高频调整,人机协同决策

尽管在自动化上投入大量资源,两位负责人都强调,规划工作仍是系统自动化与人工判断的有机结合。

"我们尽可能地推进自动化,"卡罗尔说,"但对于那些非常规情况……这些事项仍然依赖人工决策来处理。"这类决策往往频繁发生,通常每周都有,团队在此过程中不断重新调整优先级、分配有限资源。

"在自动化体系之间,确实有人工在做黏合剂,"杰克逊说,他指出突发性需求激增和大客户签约往往会迅速打乱已有预测。

这种平衡在内部工作负载与第三方工作负载之间体现得尤为明显。卡罗尔介绍,微软会利用内部工作负载来消化闲置容量、提升利用率,例如思考"有哪些异步批处理任务可以在低谷期运行……来拉高整体利用率"。但这种灵活性难以直接套用到第三方客户,因为后者通常受到更严格的合同约束。

预测本身仍存在不确定性。卡罗尔表示,微软维护着六个月和十二个月的预测,但更加依赖短期应变能力。"六个月的预测——有当然好,"她说,"但我更关注的是……如何以最灵活的方式支撑各种变化。"

杰克逊则持续追踪硬件迭代周期——每一代芯片如何提升机柜功率密度、重塑数据中心的整体设计。"每一代产品,机柜功率都会上升,"他说。

综合来看,两家公司呈现出相同的运作逻辑:构建一个持续运转的控制闭环——需求信号变化,容量随之调整,计划近乎实时地持续演进。

"偶尔……会有某些事情突然发生,把原有计划彻底打乱,"杰克逊说。

Q&A

Q1:微软的区间预测方法具体是怎么运作的?

A:微软放弃了精确的单点预测,转而对未来需求建立多种范围模型,同时覆盖"非常规"需求,比如新功能上线、区域扩张等历史数据无法涵盖的情况。为此,微软加强了产品、工程与供应链团队之间的协同,引入更多自动化接触点,并将规划评审频率提升至至少每周一次,随信号变化随时调整。

Q2:谷歌为什么要尽量推迟数据中心的容量部署决策?

A:谷歌认为,决策一旦从虚拟规划转化为实体建设,成本就会大幅上升。因此,谷歌尽量将绑定性决策推迟到接近实际上线日期,并通过可互换的模块化数据中心设计,使得GPU与自研TPU等不同类型工作负载在后期仍可灵活调配,从而在不增加额外成本的前提下吸收需求变化。

Q3:AI工作负载对数据中心规划带来了哪些新挑战?

A:AI工作负载打破了原有的计算、存储与网络资源配比惯例。以微软Copilot为例,需求驱动因素已从单纯的用户数量扩展到功能使用模式和模型行为。与此同时,大型AI训练集群往往跨越多个数据中心设施,需要在电力、冷却和网络层面实现高度协同,促使超大规模运营商将整个园区视为一台统一的分布式计算机来进行规划。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

04/23

16:07

分享

点赞

邮件订阅