Datadog推出GPU监控功能,助力企业应对AI成本攀升挑战

Datadog在其可观测性平台中新增GPU监控功能,帮助企业深入了解GPU资源的使用情况。随着AI投资持续攀升,GPU实例已占云计算成本的14%。该工具提供跨云端、私有部署的统一视图,将GPU健康状态、成本与性能数据关联至各业务团队,支持识别闲置进程、错误配置及资源浪费。Datadog内部测试显示,该工具每月可节省数万美元开支。Grafana、Nutanix等厂商也在同期推出类似的AI可观测性工具。

Datadog近日在其可观测性平台中新增了GPU监控功能,为那些大量使用AI的企业提供更深入的洞察,帮助它们了解成本最高的芯片资源究竟在如何运转。

该可观测性厂商表示,随着各企业纷纷加速拥抱AI,GPU实例目前已占云计算总成本的14%,而这一比例预计在未来还将持续上升。

IDC本月早些时候发布数据指出:"2025年第四季度,全球AI基础设施支出已达899亿美元,同比增长62%。"其中,以GPU为主的加速计算是这一增长的"结构性支柱"。

然而,各界对于企业能否从巨额AI投资中获得实际价值,至今仍存在广泛争议。

Datadog并未正面回应这一争议,但其首席产品官李燕冰(Yanbing Li)指出:"这些企业虽然能看到成本在上涨,却无法将GPU支出分摊至各业务部门,也看不清工作负载的上下文,更不知道下一步该如何优化。"

为此,Datadog推出了最新工具,声称可提供覆盖整个AI技术栈的统一可视化视图,"让客户能够在单一界面中将GPU机群健康状态、成本与性能直接关联到具体团队,从而更快排查慢速工作负载问题,实现成本节约"。

官方详细介绍显示,该工具同时支持云端、新兴云服务商实例以及本地GPU机群——对于因数据主权顾虑而对云端AI持谨慎态度的企业来说,这一特性尤为实用。

"你可以轻松看到机群中有多少资源处于完全闲置状态,或者被根本不需要GPU的工作负载低效占用,"介绍中写道。"通过Fleet Explorer,你可以深入分析各团队的GPU使用率和支出情况,实现责任追踪。"

除了识别占用GPU时间的停滞进程或"僵尸进程"外,该工具还能发现那些从未配置为使用GPU却仍在消耗资源的工作负载,相当于在白白烧钱。

"在Datadog内部,GPU监控功能帮助我们识别并移除了一个一直卡在初始化阶段的服务Pod,每月节省了数万美元的开支,"文章中提到。

"成本上涨往往源于运营效率低下,而非硬件本身。通过将成本与使用率和工作负载行为相关联,团队可以在保持性能的同时减少浪费。"

在这一领域,Datadog并非唯一向AI技术栈深处延伸可观测性能力的厂商。本周,Grafana也推出了面向AI的可观测性工具,可洞察智能体的行为模式,其Grafana Cloud平台还提供涵盖硬件使用率、资源分配及成本优化的GPU可观测性功能。

本月早些时候,Nutanix也发布了多租户框架,帮助企业在现有GPU上运行更多工作负载,并提供更清晰的AI系统Token消耗情况。

总体而言,追踪单个AI工作负载的成本、识别导致账单虚高的流程问题和软件配置错误,正变得越来越容易。这意味着企业可以确保其AI基础设施及相关应用与智能体尽可能高效地运行。至于企业能否真正判断出AI投资是否物有所值,则可能又是另一个需要深入探讨的问题了。

Q&A

Q1:Datadog的GPU监控功能具体能做什么?

A:Datadog的GPU监控功能可以提供覆盖整个AI技术栈的统一可视化视图,帮助企业将GPU机群健康状态、成本与性能关联到具体团队。它能识别闲置资源、停滞进程和"僵尸进程",发现未正确配置GPU却仍在消耗资源的工作负载,并支持云端、新兴云服务商及本地GPU机群。Datadog内部通过该功能,每月节省了数万美元的GPU开支。

Q2:目前GPU在企业云计算成本中占多大比例?

A:根据Datadog的数据,GPU实例目前已占企业云计算总成本的14%,且这一比例预计还会继续上升。IDC数据显示,2025年第四季度全球AI基础设施支出已达899亿美元,同比增长62%,以GPU为主的加速计算是其中的核心驱动力。

Q3:除了Datadog,还有哪些厂商在提供AI相关的GPU可观测性工具?

A:目前多家厂商正在这一领域布局。Grafana本周推出了面向AI的可观测性工具,支持洞察智能体行为,其Grafana Cloud平台也提供GPU硬件使用率和成本优化功能。Nutanix则发布了多租户框架,帮助企业在现有GPU上运行更多工作负载,并提供AI系统的Token消耗监控能力。

来源:The Register

0赞

好文章,需要你的鼓励

2026

04/24

15:01

分享

点赞

邮件订阅