Datadog推出GPU监控功能，助力企业应对AI成本攀升挑战

Datadog在其可观测性平台中新增GPU监控功能，帮助企业深入了解GPU资源的使用情况。随着AI投资持续攀升，GPU实例已占云计算成本的14%。该工具提供跨云端、私有部署的统一视图，将GPU健康状态、成本与性能数据关联至各业务团队，支持识别闲置进程、错误配置及资源浪费。Datadog内部测试显示，该工具每月可节省数万美元开支。Grafana、Nutanix等厂商也在同期推出类似的AI可观测性工具。

Datadog近日在其可观测性平台中新增了GPU监控功能，为那些大量使用AI的企业提供更深入的洞察，帮助它们了解成本最高的芯片资源究竟在如何运转。

该可观测性厂商表示，随着各企业纷纷加速拥抱AI，GPU实例目前已占云计算总成本的14%，而这一比例预计在未来还将持续上升。

IDC本月早些时候发布数据指出："2025年第四季度，全球AI基础设施支出已达899亿美元，同比增长62%。"其中，以GPU为主的加速计算是这一增长的"结构性支柱"。

然而，各界对于企业能否从巨额AI投资中获得实际价值，至今仍存在广泛争议。

Datadog并未正面回应这一争议，但其首席产品官李燕冰（Yanbing Li）指出："这些企业虽然能看到成本在上涨，却无法将GPU支出分摊至各业务部门，也看不清工作负载的上下文，更不知道下一步该如何优化。"

为此，Datadog推出了最新工具，声称可提供覆盖整个AI技术栈的统一可视化视图，"让客户能够在单一界面中将GPU机群健康状态、成本与性能直接关联到具体团队，从而更快排查慢速工作负载问题，实现成本节约"。

官方详细介绍显示，该工具同时支持云端、新兴云服务商实例以及本地GPU机群——对于因数据主权顾虑而对云端AI持谨慎态度的企业来说，这一特性尤为实用。

"你可以轻松看到机群中有多少资源处于完全闲置状态，或者被根本不需要GPU的工作负载低效占用，"介绍中写道。"通过Fleet Explorer，你可以深入分析各团队的GPU使用率和支出情况，实现责任追踪。"

除了识别占用GPU时间的停滞进程或"僵尸进程"外，该工具还能发现那些从未配置为使用GPU却仍在消耗资源的工作负载，相当于在白白烧钱。

"在Datadog内部，GPU监控功能帮助我们识别并移除了一个一直卡在初始化阶段的服务Pod，每月节省了数万美元的开支，"文章中提到。

"成本上涨往往源于运营效率低下，而非硬件本身。通过将成本与使用率和工作负载行为相关联，团队可以在保持性能的同时减少浪费。"

在这一领域，Datadog并非唯一向AI技术栈深处延伸可观测性能力的厂商。本周，Grafana也推出了面向AI的可观测性工具，可洞察智能体的行为模式，其Grafana Cloud平台还提供涵盖硬件使用率、资源分配及成本优化的GPU可观测性功能。

本月早些时候，Nutanix也发布了多租户框架，帮助企业在现有GPU上运行更多工作负载，并提供更清晰的AI系统Token消耗情况。

总体而言，追踪单个AI工作负载的成本、识别导致账单虚高的流程问题和软件配置错误，正变得越来越容易。这意味着企业可以确保其AI基础设施及相关应用与智能体尽可能高效地运行。至于企业能否真正判断出AI投资是否物有所值，则可能又是另一个需要深入探讨的问题了。

Q&A

Q1：Datadog的GPU监控功能具体能做什么？

A：Datadog的GPU监控功能可以提供覆盖整个AI技术栈的统一可视化视图，帮助企业将GPU机群健康状态、成本与性能关联到具体团队。它能识别闲置资源、停滞进程和"僵尸进程"，发现未正确配置GPU却仍在消耗资源的工作负载，并支持云端、新兴云服务商及本地GPU机群。Datadog内部通过该功能，每月节省了数万美元的GPU开支。

Q2：目前GPU在企业云计算成本中占多大比例？

A：根据Datadog的数据，GPU实例目前已占企业云计算总成本的14%，且这一比例预计还会继续上升。IDC数据显示，2025年第四季度全球AI基础设施支出已达899亿美元，同比增长62%，以GPU为主的加速计算是其中的核心驱动力。

Q3：除了Datadog，还有哪些厂商在提供AI相关的GPU可观测性工具？

A：目前多家厂商正在这一领域布局。Grafana本周推出了面向AI的可观测性工具，支持洞察智能体行为，其Grafana Cloud平台也提供GPU硬件使用率和成本优化功能。Nutanix则发布了多租户框架，帮助企业在现有GPU上运行更多工作负载，并提供AI系统的Token消耗监控能力。

来源：The Register

0赞

好文章，需要你的鼓励

Datadog推出GPU监控功能，助力企业应对AI成本攀升挑战

来源：The Register

2026

04/24

15:01

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Era融资1100万美元，专注打造AI硬件软件平台

微软悄悄给Word文档加了一个AI共同编辑者

Anthropic新模型Mythos对网络安全未来意味着什么

如何使用苹果"清除"工具删除照片中的多余元素

微软在Word、Excel和PowerPoint中推出"vibe working"功能

Palantir斩获美国农业部3亿美元合同，助力农业安全现代化

Yutori推出Delegate：让AI智能体成为主动执行网络任务的助手

AI驱动热电发电机设计，效率提升万倍

天文学家借助AI探索星系，加剧全球GPU资源紧张

Beehiiv推出网络研讨会与可定制付费墙等创作者新功能

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会