在大规模AI训练中,由于GPU在等待相互通信时处于闲置状态,计算集群的实际性能通常仅能达到理论峰值的30%至50%。事实上,大型GPU集群中的通信与同步瓶颈问题,每天可给数据中心运营商造成数十万乃至数百万美元的损失。
Clockwork Systems是一家获得AMD和博通支持的企业,其产品正受到新兴云服务商、大型企业、超大规模云厂商,以及部署着数万乃至数十万GPU的AI工作负载用户的广泛关注。该公司CEO苏雷什·瓦苏德万表示:"一个拥有1000块GPU的集群,每天通常会发生两到四次重大中断事件,在规模约5000万美元投入的集群中,这将造成500万至800万美元的损失。"
据悉,基于软件的解决方案能够在服务器时钟之间实现纳秒级的时间同步,从而优化GPU之间的通信效率,并在训练与推理两类工作负载中显著提升GPU集群的利用率。
业内相关动态方面,麦肯锡数据显示,传统计算、存储和云工作负载目前占亚太地区数据中心需求的70%以上,而AI训练与推理工作负载约占30%,亚太地区正日益成为数据中心增长的重要引擎。
IBM方面近日发布了全球首款亚1纳米芯片,采用"纳米堆叠"三维晶体管架构,制程节点为0.7纳米,可在指甲大小的硅片上集成1000亿个晶体管,并在能耗方面表现突出。
存储芯片巨头美光科技因获得客户220亿美元的内存芯片订单承诺,市值一度短暂超越Meta和特斯拉,凸显出当前市场对AI基础设施的强劲需求。
Q&A
Q1:GPU集群闲置问题有多严重?会造成多大损失?
A:大规模AI训练中,GPU集群实际性能通常只能达到理论峰值的30%至50%,根本原因是GPU之间通信与同步存在瓶颈。以一个1000块GPU的集群为例,每天通常会发生2到4次重大中断事件,在约5000万美元投入规模的集群中,每天损失可高达500万至800万美元。对于数据中心运营商而言,这是一笔相当可观的隐性成本。
Q2:Clockwork Systems是如何解决GPU集群通信瓶颈问题的?
A:Clockwork Systems采用软件驱动的方案,通过在服务器时钟之间实现纳秒级时间同步,来优化GPU之间的通信效率。这种精准的时钟同步可以减少GPU等待时间,从而提升集群整体利用率,在AI训练和推理两类工作负载场景中均有效果。该公司获得了AMD和博通的支持,目前正受到超大规模云厂商和大型企业的广泛关注。
Q3:亚太地区数据中心市场的AI需求现状如何?
A:根据麦肯锡的数据,亚太地区数据中心需求目前仍以传统计算、存储和云工作负载为主,占比超过70%,而AI训练与推理工作负载约占30%。尽管AI占比尚未过半,但增长势头强劲,亚太地区正逐渐成为全球数据中心扩张的重要增长引擎。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。