Datadog近日在其可观测性平台中新增了GPU监控功能,为那些大量使用AI的企业提供更深入的洞察,帮助它们了解成本最高的芯片资源究竟在如何运转。
该可观测性厂商表示,随着各企业纷纷加速拥抱AI,GPU实例目前已占云计算总成本的14%,而这一比例预计在未来还将持续上升。
IDC本月早些时候发布数据指出:"2025年第四季度,全球AI基础设施支出已达899亿美元,同比增长62%。"其中,以GPU为主的加速计算是这一增长的"结构性支柱"。
然而,各界对于企业能否从巨额AI投资中获得实际价值,至今仍存在广泛争议。
Datadog并未正面回应这一争议,但其首席产品官李燕冰(Yanbing Li)指出:"这些企业虽然能看到成本在上涨,却无法将GPU支出分摊至各业务部门,也看不清工作负载的上下文,更不知道下一步该如何优化。"
为此,Datadog推出了最新工具,声称可提供覆盖整个AI技术栈的统一可视化视图,"让客户能够在单一界面中将GPU机群健康状态、成本与性能直接关联到具体团队,从而更快排查慢速工作负载问题,实现成本节约"。
官方详细介绍显示,该工具同时支持云端、新兴云服务商实例以及本地GPU机群——对于因数据主权顾虑而对云端AI持谨慎态度的企业来说,这一特性尤为实用。
"你可以轻松看到机群中有多少资源处于完全闲置状态,或者被根本不需要GPU的工作负载低效占用,"介绍中写道。"通过Fleet Explorer,你可以深入分析各团队的GPU使用率和支出情况,实现责任追踪。"
除了识别占用GPU时间的停滞进程或"僵尸进程"外,该工具还能发现那些从未配置为使用GPU却仍在消耗资源的工作负载,相当于在白白烧钱。
"在Datadog内部,GPU监控功能帮助我们识别并移除了一个一直卡在初始化阶段的服务Pod,每月节省了数万美元的开支,"文章中提到。
"成本上涨往往源于运营效率低下,而非硬件本身。通过将成本与使用率和工作负载行为相关联,团队可以在保持性能的同时减少浪费。"
在这一领域,Datadog并非唯一向AI技术栈深处延伸可观测性能力的厂商。本周,Grafana也推出了面向AI的可观测性工具,可洞察智能体的行为模式,其Grafana Cloud平台还提供涵盖硬件使用率、资源分配及成本优化的GPU可观测性功能。
本月早些时候,Nutanix也发布了多租户框架,帮助企业在现有GPU上运行更多工作负载,并提供更清晰的AI系统Token消耗情况。
总体而言,追踪单个AI工作负载的成本、识别导致账单虚高的流程问题和软件配置错误,正变得越来越容易。这意味着企业可以确保其AI基础设施及相关应用与智能体尽可能高效地运行。至于企业能否真正判断出AI投资是否物有所值,则可能又是另一个需要深入探讨的问题了。
Q&A
Q1:Datadog的GPU监控功能具体能做什么?
A:Datadog的GPU监控功能可以提供覆盖整个AI技术栈的统一可视化视图,帮助企业将GPU机群健康状态、成本与性能关联到具体团队。它能识别闲置资源、停滞进程和"僵尸进程",发现未正确配置GPU却仍在消耗资源的工作负载,并支持云端、新兴云服务商及本地GPU机群。Datadog内部通过该功能,每月节省了数万美元的GPU开支。
Q2:目前GPU在企业云计算成本中占多大比例?
A:根据Datadog的数据,GPU实例目前已占企业云计算总成本的14%,且这一比例预计还会继续上升。IDC数据显示,2025年第四季度全球AI基础设施支出已达899亿美元,同比增长62%,以GPU为主的加速计算是其中的核心驱动力。
Q3:除了Datadog,还有哪些厂商在提供AI相关的GPU可观测性工具?
A:目前多家厂商正在这一领域布局。Grafana本周推出了面向AI的可观测性工具,支持洞察智能体行为,其Grafana Cloud平台也提供GPU硬件使用率和成本优化功能。Nutanix则发布了多租户框架,帮助企业在现有GPU上运行更多工作负载,并提供AI系统的Token消耗监控能力。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。