闲置GPU集群每日损失可达数百万美元

在大规模AI训练中，GPU集群实际性能通常仅达理论值的30%–50%，通信与同步瓶颈导致数据中心运营商每日损失数十万乃至数百万美元。以1000个GPU的集群为例，每天可能发生2至4次中断事件，损失高达500万至800万美元。AMD和博通支持的Clockwork Systems首席执行官Suresh Vasudevan深入剖析这一问题，并探讨如何通过软件驱动的纳秒级时间同步方案提升GPU利用率。

在大规模AI训练中，由于GPU在等待相互通信时处于闲置状态，计算集群的实际性能通常仅能达到理论峰值的30%至50%。事实上，大型GPU集群中的通信与同步瓶颈问题，每天可给数据中心运营商造成数十万乃至数百万美元的损失。

Clockwork Systems是一家获得AMD和博通支持的企业，其产品正受到新兴云服务商、大型企业、超大规模云厂商，以及部署着数万乃至数十万GPU的AI工作负载用户的广泛关注。该公司CEO苏雷什·瓦苏德万表示："一个拥有1000块GPU的集群，每天通常会发生两到四次重大中断事件，在规模约5000万美元投入的集群中，这将造成500万至800万美元的损失。"

据悉，基于软件的解决方案能够在服务器时钟之间实现纳秒级的时间同步，从而优化GPU之间的通信效率，并在训练与推理两类工作负载中显著提升GPU集群的利用率。

业内相关动态方面，麦肯锡数据显示，传统计算、存储和云工作负载目前占亚太地区数据中心需求的70%以上，而AI训练与推理工作负载约占30%，亚太地区正日益成为数据中心增长的重要引擎。

IBM方面近日发布了全球首款亚1纳米芯片，采用"纳米堆叠"三维晶体管架构，制程节点为0.7纳米，可在指甲大小的硅片上集成1000亿个晶体管，并在能耗方面表现突出。

存储芯片巨头美光科技因获得客户220亿美元的内存芯片订单承诺，市值一度短暂超越Meta和特斯拉，凸显出当前市场对AI基础设施的强劲需求。

Q&A

Q1：GPU集群闲置问题有多严重？会造成多大损失？

A：大规模AI训练中，GPU集群实际性能通常只能达到理论峰值的30%至50%，根本原因是GPU之间通信与同步存在瓶颈。以一个1000块GPU的集群为例，每天通常会发生2到4次重大中断事件，在约5000万美元投入规模的集群中，每天损失可高达500万至800万美元。对于数据中心运营商而言，这是一笔相当可观的隐性成本。

Q2：Clockwork Systems是如何解决GPU集群通信瓶颈问题的？

A：Clockwork Systems采用软件驱动的方案，通过在服务器时钟之间实现纳秒级时间同步，来优化GPU之间的通信效率。这种精准的时钟同步可以减少GPU等待时间，从而提升集群整体利用率，在AI训练和推理两类工作负载场景中均有效果。该公司获得了AMD和博通的支持，目前正受到超大规模云厂商和大型企业的广泛关注。

Q3：亚太地区数据中心市场的AI需求现状如何？

A：根据麦肯锡的数据，亚太地区数据中心需求目前仍以传统计算、存储和云工作负载为主，占比超过70%，而AI训练与推理工作负载约占30%。尽管AI占比尚未过半，但增长势头强劲，亚太地区正逐渐成为全球数据中心扩张的重要增长引擎。

来源：RCR Tech - AI INFRASTRUCTURE

0赞

好文章，需要你的鼓励

闲置GPU集群每日损失可达数百万美元

来源：RCR Tech - AI INFRASTRUCTURE

2026

06/30

13:57

分享

点赞

1976年大学实验如何催生美国风能产业

江波龙：建设完成mSSD月产能百万交付能力！mSSD高速存储介质赋能端侧AI规模应用

从IO500双榜第一，看国产存储的系统级突破

Rocket Lab宣布以80亿美元收购卫星运营商铱星公司

Tidal宣布将为AI生成音乐添加标签并移除欺诈内容

Claude Tag：将职场AI从个人助手升级为团队协作伙伴

数百万颗超新星爆炸或将揭开暗能量的秘密

Base44发布自研大语言模型，氛围编程平台寻求核心竞争壁垒

遗留系统与数据鸿沟制约亚洲财资中心发展

机器人手部公司与特斯拉达成商业秘密诉讼和解，完成1100万美元融资

OpenAI携手Trail of Bits发起"Patch the Planet"开源安全修复计划

想进大厂？初创公司或许才是你的最佳跳板

美国最大变压器工厂扩建，剑指AI数据中心用电需求

德克萨斯AI数据中心：电力、政策与发展进程

Netris获a16z 1500万美元A轮融资，助力新云服务商快速上线

微软与雪佛龙携手押注西德克萨斯AI数据中心

AI基础设施运输风险：机器人行业不可忽视的隐患

HPE Discover 2026：以网络为核心构建 AI 基础设施新愿景

数据中心GPU基础设施管理初创公司Hydra Host完成1亿美元A轮融资

Crusoe能否落实其4.9GW的数据中心签约管道？

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

西门子发布100MW AI工厂参考架构，携手英伟达等巨头重塑数据中心设计

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

《AI启示录》新华三《数字化领航》AI系列专刊

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: