Datadog近日在其可观测性平台中新增了GPU监控功能,为那些大量使用AI的企业提供更深入的洞察,帮助它们了解成本最高的芯片资源究竟在如何运转。
该可观测性厂商表示,随着各企业纷纷加速拥抱AI,GPU实例目前已占云计算总成本的14%,而这一比例预计在未来还将持续上升。
IDC本月早些时候发布数据指出:"2025年第四季度,全球AI基础设施支出已达899亿美元,同比增长62%。"其中,以GPU为主的加速计算是这一增长的"结构性支柱"。
然而,各界对于企业能否从巨额AI投资中获得实际价值,至今仍存在广泛争议。
Datadog并未正面回应这一争议,但其首席产品官李燕冰(Yanbing Li)指出:"这些企业虽然能看到成本在上涨,却无法将GPU支出分摊至各业务部门,也看不清工作负载的上下文,更不知道下一步该如何优化。"
为此,Datadog推出了最新工具,声称可提供覆盖整个AI技术栈的统一可视化视图,"让客户能够在单一界面中将GPU机群健康状态、成本与性能直接关联到具体团队,从而更快排查慢速工作负载问题,实现成本节约"。
官方详细介绍显示,该工具同时支持云端、新兴云服务商实例以及本地GPU机群——对于因数据主权顾虑而对云端AI持谨慎态度的企业来说,这一特性尤为实用。
"你可以轻松看到机群中有多少资源处于完全闲置状态,或者被根本不需要GPU的工作负载低效占用,"介绍中写道。"通过Fleet Explorer,你可以深入分析各团队的GPU使用率和支出情况,实现责任追踪。"
除了识别占用GPU时间的停滞进程或"僵尸进程"外,该工具还能发现那些从未配置为使用GPU却仍在消耗资源的工作负载,相当于在白白烧钱。
"在Datadog内部,GPU监控功能帮助我们识别并移除了一个一直卡在初始化阶段的服务Pod,每月节省了数万美元的开支,"文章中提到。
"成本上涨往往源于运营效率低下,而非硬件本身。通过将成本与使用率和工作负载行为相关联,团队可以在保持性能的同时减少浪费。"
在这一领域,Datadog并非唯一向AI技术栈深处延伸可观测性能力的厂商。本周,Grafana也推出了面向AI的可观测性工具,可洞察智能体的行为模式,其Grafana Cloud平台还提供涵盖硬件使用率、资源分配及成本优化的GPU可观测性功能。
本月早些时候,Nutanix也发布了多租户框架,帮助企业在现有GPU上运行更多工作负载,并提供更清晰的AI系统Token消耗情况。
总体而言,追踪单个AI工作负载的成本、识别导致账单虚高的流程问题和软件配置错误,正变得越来越容易。这意味着企业可以确保其AI基础设施及相关应用与智能体尽可能高效地运行。至于企业能否真正判断出AI投资是否物有所值,则可能又是另一个需要深入探讨的问题了。
Q&A
Q1:Datadog的GPU监控功能具体能做什么?
A:Datadog的GPU监控功能可以提供覆盖整个AI技术栈的统一可视化视图,帮助企业将GPU机群健康状态、成本与性能关联到具体团队。它能识别闲置资源、停滞进程和"僵尸进程",发现未正确配置GPU却仍在消耗资源的工作负载,并支持云端、新兴云服务商及本地GPU机群。Datadog内部通过该功能,每月节省了数万美元的GPU开支。
Q2:目前GPU在企业云计算成本中占多大比例?
A:根据Datadog的数据,GPU实例目前已占企业云计算总成本的14%,且这一比例预计还会继续上升。IDC数据显示,2025年第四季度全球AI基础设施支出已达899亿美元,同比增长62%,以GPU为主的加速计算是其中的核心驱动力。
Q3:除了Datadog,还有哪些厂商在提供AI相关的GPU可观测性工具?
A:目前多家厂商正在这一领域布局。Grafana本周推出了面向AI的可观测性工具,支持洞察智能体行为,其Grafana Cloud平台也提供GPU硬件使用率和成本优化功能。Nutanix则发布了多租户框架,帮助企业在现有GPU上运行更多工作负载,并提供AI系统的Token消耗监控能力。
好文章,需要你的鼓励
近期数据显示,2026年5月前企业已宣布约9万个与AI相关的裁员岗位,部分预测称未来五年美国15%的工作将被AI取代。然而,Ramp与Revelio Labs追踪近2.2万家企业的最新报告显示:重度投入AI的企业反而实现了更快的人员增长,包括初级岗位在内的各职能人数均有上升。但这一数据主要来自技术型企业,能否普遍适用仍存疑。报告同时指出,资源匮乏的企业可能在AI浪潮中持续落后。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
AI数据中心开发商向多家电力公司同时提交大负荷接入申请以确定选址,导致区域需求预测虚高、电网投资失衡。美国联邦能源监管委员会(FERC)及ERCOT、PJM、SPP等机构正推动"承诺优先"规划机制,要求项目具备实质性商业承诺方可纳入长期传输规划。谷歌、亚马逊、微软、OpenAI等科技巨头支持建立标准化的项目成熟度评估体系,但各方在具体机制上仍存分歧。发电建设问题尚未被纳入联邦传输改革议程。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。