AI需求激增,数十亿算力资源仍处于闲置状态

云计算巨头正竞相扩建AI基础设施,亚马逊、微软、谷歌和Meta计划2026年合计资本支出高达7250亿美元。然而,Cast AI对约2.3万个Kubernetes集群的分析显示,企业环境中GPU平均利用率仅为5%,CPU利用率约8%,内存利用率约20%。专家指出,瓶颈不在于硬件短缺,而在于过度配置、调度机制薄弱及数据管道不畅,企业AI部署成熟度亟待提升。

云服务提供商正在竞相扩建AI基础设施以满足激增的需求,然而新数据显示,大量算力资源实际利用率依然偏低。

根据2026年第一季度各公司的业绩指引,亚马逊、微软、Alphabet和Meta计划在2026年合计投入高达7250亿美元的资本支出。与此同时,Cast AI发布的报告却揭示出企业环境中令人意外的低资源利用率现状。

Cast AI是一家Kubernetes优化软件供应商,其发布的《2026年Kubernetes优化状态报告》分析了约2.3万个运行在AWS、微软Azure和谷歌云上的集群,发现企业Kubernetes集群的平均GPU利用率仅为5%,CPU利用率平均为8%(较一年前的约10%有所下降),内存利用率平均约为20%(较此前的23%也有所下滑)。

Constellation Research副总裁兼首席分析师Holger Mueller认为,这一发现可能只反映了企业工作负载的某一特定切面,而非整体AI利用情况。他表示:"这一数据很有意思,但我认为存在一定的误导性,关键在于所测量的是哪类工作负载。"

Cast AI的测量数据反映的是生产环境中优化或自动扩缩容实施之前的实际使用情况,相当于企业AI部署的基线快照。该数据集涵盖跨行业、跨工作负载类型的企业Kubernetes环境,但不包括超大规模云服务商自营基础设施或内部AI训练集群。

Tekonyx总裁兼首席研究官Sid Nag表示,企业环境的资源利用率通常更高,但仍远未达到满负荷状态。他告诉数据中心知识网站:"我所观察到的基于Kubernetes的AI集群利用率大约在15%至25%之间,大多数组织只是在使用已部署GPU算力的一小部分。"

IDC云与边缘基础设施服务研究副总裁Dave McCarthy指出,这些数据揭示了更深层的效率问题。他说:"这些数字在我看来偏低,是AI领域一个新兴隐患——资源效率低下——的典型体现。"

企业AI部署仍处于早期阶段

从当前企业AI部署的整体进展来看,上述发现并不令人意外。麦肯锡的报告显示,约62%的组织正在尝试或试点AI智能体,约23%正在至少一个业务职能中推进规模化落地,而实现全企业规模化部署的比例不足10%。

世界大型企业研究会的研究表明,AI已成为企业最重要的投资优先项——43%的高管将其列为2026年的首要优先事项之一——但许多企业仍在探索如何实现大规模部署并衡量其价值。

Nag认为,真实需求与实际执行之间的差距折射出更广泛的准备就绪挑战。他表示:"真正的瓶颈不在于模型能力,而在于缺乏生产级架构、数据就绪度以及将AI从实验转化为企业级系统所需的运营模型。"

HyperFrame Research最新报告也印证了这一观点:仅约14%的组织认为其数据架构已具备AI就绪能力,可扩展性与性能是首要障碍。

资源申请量远超实际使用量

Cast AI的报告还发现了工作负载申请资源与实际消耗之间的错配问题。CPU、内存和GPU的过度供给,会导致即便集群看似已满负荷分配,节点实际上仍处于低利用状态。

Mueller表示,基于Kubernetes的测量范围可能无法还原全貌。他说:"工作负载正在向AI转移,但问题是这些工作负载是否以Kubernetes集群的形式管理,并对Cast AI等平台可见。"

在许多Kubernetes环境中,GPU以独立资源形式分配,限制了算力在不同任务之间共享的可能性。报告还指出,调度行为和自动扩缩容策略——包括节点间算力碎片化以及允许闲置资源持续存在的缩容策略——也是影响利用率的重要因素。

McCarthy认为,低效问题往往源于上游约束和资源分配行为。他表示:"有些情况下,GPU闲置是因为为其供给数据的存储系统跟不上处理速度;还有些情况下,组织因为担心算力稀缺而将资源锁定,即便并未充分利用。这就像疫情期间的卫生纸抢购潮一样,这种行为反而会加剧算力短缺问题。"

Nag认为这是一个系统性问题。"这不是硬件问题,而是系统问题。"他指出,过度供给、调度机制薄弱以及数据管道瓶颈共同导致GPU闲置。"当前企业GPU利用率的核心问题,与其说是芯片稀缺,不如说是编排能力的成熟度不足。"

Mueller也指出,企业部署模式可能进一步拉低利用率。"企业在购买配备GPU的服务器后并未充分使用,这与公有云环境中AI工作负载被更积极运行的状况有所不同。"

超大规模云服务商财报显示AI需求持续增长

上述研究发现发布之际,各大超大规模云服务商持续报告与AI工作负载相关的业务增长。

根据数据中心知识网站此前对2026年第一季度财报的报道:微软表示Azure营收同比增长40%,AI业务年化收入运行率达到370亿美元,商业剩余履约义务达6270亿美元,同比增长99%;亚马逊报告AWS营收为376亿美元,同比增长28%;Alphabet报告谷歌云营收约为200亿美元,同比增长63%;Meta平台报告资本支出为198亿美元。

这些数据表明AI基础设施需求持续强劲,但并未反映算力的使用效率。

McCarthy表示,当前的消费模式可能掩盖了低效问题。"无论资源是否被充分利用,超大规模云服务商都会持续计费,这推动了营收增长。不断攀升的云账单终将引起首席财务官的注意,并要求团队给出解释,这将促使各团队审视使用模式并建立治理机制来管控成本。"

利用率在规模化部署中呈现显著分化

Nag表示,资源利用率在规模化部署层面存在明显分化。"在大型优化AI数据中心中,利用率可达60%至70%。"他将典型企业部署与超大规模云服务商的系统进行了对比。

事实上,超大规模云服务商和大型AI实验室在专用集群上往往能报告远更高的利用率数字。根据一项arXiv研究,Meta的研究超级集群(RSC-1)的GPU利用率达到83%至85%。Salesforce在谷歌云上运行工作负载时,也通过高级存储和调度优化,将GPU利用率从48%提升至接近100%。

需求与部署之间的分化

算力支出激增与企业Kubernetes低利用率之间的落差,揭示了AI基础设施消费方式与需求衡量方式之间的深层分歧。超大规模云服务商可以提前扩充算力,以应对未来增长和积压订单的转化,而与此同时,许多企业却对已部署的资源未能充分利用。

Nag表示,将GPU视为固定算力的组织将持续面临过度供给的问题;而将GPU视为可共享、可调度资源的组织,则能够减少浪费、实现更高效的规模扩展。

Q&A

Q1:企业Kubernetes集群的GPU利用率为什么这么低?

A:Cast AI的报告显示,企业Kubernetes集群平均GPU利用率仅为5%,主要原因是系统性问题而非硬件不足。具体包括:过度供给导致资源闲置、调度机制不成熟、数据管道存在瓶颈,以及GPU在Kubernetes中以独立资源分配、难以跨任务共享等。此外,许多企业AI部署仍处于实验阶段,尚未实现生产级大规模落地,也是利用率偏低的重要原因。

Q2:超大规模云服务商的GPU利用率和企业有多大差距?

A:差距非常显著。企业Kubernetes集群的平均GPU利用率仅为5%,而超大规模云服务商和大型AI实验室在专用集群上的利用率则远高于此。例如,Meta的研究超级集群GPU利用率达83%至85%,Salesforce通过优化存储和调度将利用率从48%提升至接近100%。大型优化AI数据中心的整体利用率通常在60%至70%之间。

Q3:企业如何提高GPU资源的使用效率?

A:要提高GPU利用率,企业需要从系统层面入手。建议将GPU从固定分配资源转变为可共享、可调度的资源池;优化调度策略,减少节点间算力碎片化;改善数据管道,避免存储系统成为GPU处理的瓶颈;同时建立完善的资源治理机制,定期审查使用模式。此外,提升数据架构的AI就绪度,以及构建生产级运营模型,也是实现高效规模化部署的关键前提。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

05/08

10:08

分享

点赞

邮件订阅