微软与谷歌如何规划和部署AI工作负载

在Data Center World 2026大会上，微软M365容量管理高级总监Julianne Carroll与谷歌能源总监Shen Jackson分享了超大规模数据中心的工作负载规划策略。两家公司均采用区间预测替代单点估算，尽可能推迟关键决策节点，并构建模块化、可互换的基础设施以应对AI带来的资源比例变化。同时，两家公司强调自动化与人工判断相结合，通过每周动态调整保持规划的灵活性与适应性。

华盛顿特区——在超大规模数据中心环境中，工作负载规划已从固定路线图转变为持续动态调整，因为当前的需求变化速度已经超过了新基础设施的上线速度。

在2026年数据中心世界大会"工作负载落地：超大规模运营商如何规划、扩展与应对"专题会议上，微软M365容量管理高级总监朱丽安·卡罗尔（Julianne Carroll）与谷歌能源总监沈·杰克逊（Shen Jackson）分别介绍了各自设计的规划体系——这套体系的核心目标是消化需求波动，而非消除波动本身。

区间预测取代精确点估计

卡罗尔指出了问题的核心所在：需求变化过快，精确的点估计已难以适用。"我们规划的是一个范围区间，而不是某个具体数值，"她表示，微软现在对潜在结果建立多种范围模型，而非单一预测。

这一方法涵盖了她所称的"非常规"需求——即新功能上线、区域扩张以及超出历史数据范围的业务模式。为应对这类需求，微软加强了产品、工程与供应链团队之间的反馈协同。"产品团队与工程团队、供应链团队之间的整合比以往任何时候都更紧密，"卡罗尔说，"我们有更多接触点和自动化手段……以实现最大程度的灵活性。"目前，规划评审至少每周进行一次，并随信号变化随时调整。

谷歌的杰克逊则从时间与掌控力的角度描述了类似的约束。"对于一年内发生的事，我们其实没有太多能做的，"他说，"但对于一到两年后的事，我们有很大的调整空间。"由此形成了一套基于区间与概率的规划模型，并具备足够的弹性来吸收后期变化，而不会打乱整体节奏。

推迟绑定决策

两家公司都在尽量将绑定性决策延迟到最后时刻，并在基础设施设计上为此提供支撑。

卡罗尔提到了"以可选性和可互换性为设计原则"的做法，通过模块化架构，使工作负载在流程后期仍可灵活迁移。"我们的规划周期更短，调整频率也比以前更高，"她说。

杰克逊描述了谷歌的类似做法：即使是接近建设完成的设施，最终的容量部署方式也可能发生变化。"我们尽量将决策时间点推迟到尽可能接近上线日期，"他说，"一旦从虚拟阶段转为实体落地，成本就会大幅上升。"

这种方式要求基础设施能够支持多种工作负载类型。在谷歌，这意味着需要在GPU与自研TPU之间实现平衡，两者在资源需求上往往存在差异。"我们必须设计可互换的数据中心，"杰克逊说。

AI正在重塑资源配比与规模边界

AI工作负载正是这些变化的根本驱动力。卡罗尔表示，长期以来关于计算、存储与网络资源配比的惯性假设已不再成立。"随着我们推出Copilot，这些长期形成的假设已经发生了根本性改变，"她说。需求的衡量维度不再仅仅是用户数量，而是涵盖功能使用情况、消费模式和模型行为等多重因素。

在基础设施层面，杰克逊表示超大规模运营商的思维已经超越了单个数据中心的范畴。"我们考虑的不再只是一座数据中心，"他说，"而是将整个园区视为一台横向扩展的计算机。"大型AI训练集群如今跨越多个设施，需要在电力、冷却和网络方面实现高度协同，这也进一步强化了灵活、延迟绑定设计的必要性。

保持高频调整，人机协同决策

尽管在自动化上投入大量资源，两位负责人都强调，规划工作仍是系统自动化与人工判断的有机结合。

"我们尽可能地推进自动化，"卡罗尔说，"但对于那些非常规情况……这些事项仍然依赖人工决策来处理。"这类决策往往频繁发生，通常每周都有，团队在此过程中不断重新调整优先级、分配有限资源。

"在自动化体系之间，确实有人工在做黏合剂，"杰克逊说，他指出突发性需求激增和大客户签约往往会迅速打乱已有预测。

这种平衡在内部工作负载与第三方工作负载之间体现得尤为明显。卡罗尔介绍，微软会利用内部工作负载来消化闲置容量、提升利用率，例如思考"有哪些异步批处理任务可以在低谷期运行……来拉高整体利用率"。但这种灵活性难以直接套用到第三方客户，因为后者通常受到更严格的合同约束。

预测本身仍存在不确定性。卡罗尔表示，微软维护着六个月和十二个月的预测，但更加依赖短期应变能力。"六个月的预测——有当然好，"她说，"但我更关注的是……如何以最灵活的方式支撑各种变化。"

杰克逊则持续追踪硬件迭代周期——每一代芯片如何提升机柜功率密度、重塑数据中心的整体设计。"每一代产品，机柜功率都会上升，"他说。

综合来看，两家公司呈现出相同的运作逻辑：构建一个持续运转的控制闭环——需求信号变化，容量随之调整，计划近乎实时地持续演进。

"偶尔……会有某些事情突然发生，把原有计划彻底打乱，"杰克逊说。

Q&A

Q1：微软的区间预测方法具体是怎么运作的？

A：微软放弃了精确的单点预测，转而对未来需求建立多种范围模型，同时覆盖"非常规"需求，比如新功能上线、区域扩张等历史数据无法涵盖的情况。为此，微软加强了产品、工程与供应链团队之间的协同，引入更多自动化接触点，并将规划评审频率提升至至少每周一次，随信号变化随时调整。

Q2：谷歌为什么要尽量推迟数据中心的容量部署决策？

A：谷歌认为，决策一旦从虚拟规划转化为实体建设，成本就会大幅上升。因此，谷歌尽量将绑定性决策推迟到接近实际上线日期，并通过可互换的模块化数据中心设计，使得GPU与自研TPU等不同类型工作负载在后期仍可灵活调配，从而在不增加额外成本的前提下吸收需求变化。

Q3：AI工作负载对数据中心规划带来了哪些新挑战？

A：AI工作负载打破了原有的计算、存储与网络资源配比惯例。以微软Copilot为例，需求驱动因素已从单纯的用户数量扩展到功能使用模式和模型行为。与此同时，大型AI训练集群往往跨越多个数据中心设施，需要在电力、冷却和网络层面实现高度协同，促使超大规模运营商将整个园区视为一台统一的分布式计算机来进行规划。

来源：DataCenterKnowledge

0赞

好文章，需要你的鼓励

微软与谷歌如何规划和部署AI工作负载

来源：DataCenterKnowledge

2026

04/23

16:07

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

劳氏船级社完成AI航海导航系统评估

谷歌发布两款专为"智能体时代"打造的新一代TPU

Anthropic测试将Claude Code从Pro计划中移除

Anthropic最危险AI模型遭未授权人员访问

Meta开始监控员工电脑行为，用于训练AI智能体

Google Meet AI记录功能扩展至线下及第三方会议平台

Google Gemini for Home智能音箱恢复连续对话功能

谷歌为企业推出智能体构建平台，专注IT技术团队

谷歌将Chrome浏览器打造成企业级AI工作助手

MuleSoft Agent Fabric新增多项功能，助力企业管控AI智能体

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: