企业网络运维团队在AI浪潮下的困境与挑战

根据企业管理协会(EMA)对352名IT专业人员的调查,仅31%的受访者认为其网络运营策略完全成功,较两年前的42%明显下滑。网络团队正面临人才短缺、工具泛滥、混合多云复杂性及AI工作负载带来的多重压力。近半数受访者表示AI训练或推理工作负载已部署在其网络上,但只有35%的团队认为现有工具已完全准备就绪。报告指出,自动化与AI驱动的智能工具正成为提升运营效率的关键方向。

企业网络运维团队正面临日益严峻的压力,随着企业着手为AI工作负载改造网络基础设施与可观测性工具,这一挑战还在持续升级。

根据企业管理协会(EMA)基准研究的调查结果,仅有约31%的IT专业人员认为所在组织的网络运维策略完全有效,而这一比例在两年前还高达42%。上述数据来自EMA《2026年网络管理重大趋势》报告,该报告基于对北美和欧洲352名IT专业人员的问卷调查。报告指出,当前网络团队同时面临多重压力:人才短缺、工具泛滥、混合与多云架构的复杂性,以及网络基础设施本身并非为AI工作负载而设计所带来的种种挑战。

EMA网络基础设施与运营研究副总裁沙默斯·麦吉利卡迪在报告声明中表示:"网络运维人员清楚地知道自己需要改进,但他们没有得到应有的支持。他们需要预算来填补团队空缺,需要更好的工具,需要更多的自动化手段,也需要对混合云和多云等现代架构拥有更大的话语权。CIO们必须主动行动,给予网络运维团队应有的支持——尤其是当这些CIO希望推进AI转型的时候。网络基础设施将直接决定这些项目的成败。"

工具泛滥是网络运维团队长期以来的顽疾。典型的IT组织使用4到10种监控与故障排查工具来管理网络,EMA表示这一数字十多年来几乎没有改变。然而,EMA研究发现,工具数量的多少与运营成功率之间并无显著相关性。

以下数据揭示了当前网络运维领域的改进空间:

58%的网络问题能在影响用户之前被主动发现;网络监控工具生成的告警中,仅有37%代表真实问题;28%的网络故障由人工操作失误引发;网络专业人员平均每天有29%的时间花在故障排查上。

麦吉利卡迪在一场关于研究结果的网络研讨会上解释道:"IT从业者认为,他们日常处理的网络问题中有53%本可以通过更好的工具加以预防。这也解释了为何只有31%的受访者认为自己在网络运维策略上完全成功。工具替换的需求非常普遍——73%的受访者表示,他们在未来两年内有可能更换现有的网络可观测性或网络监控工具。"

人才缺口持续扩大

在招募网络技术专家方面感到困难的组织比例,已从2022年的26%上升至2024年的41%,再到目前的52%。EMA指出,这一短缺在高级和中级岗位上尤为突出,而这些岗位恰恰最需要云计算、安全和自动化方面的专业技能。

一位就职于《财富》500强娱乐公司的监控架构师在EMA报告中表示:"我们被要求用更少的人做更多的事。以前需要25人完成的工作,管理层现在希望我们用10人的团队搞定。"

人才缺口也在加速推动自动化部署的迫切性。EMA认为,人手不足的团队需要能自动处理更多日常工作的工具,这样现有工程师才能专注于更高层次的任务。然而,技能差距本身往往成为实现自动化的最大障碍——团队中经常缺乏能够构建和维护自动化流程的专业人员。网络团队反映的自动化主要障碍包括:

团队内部技能差距:46%;工具局限性或集成不足:36.4%;数据质量不足或可见性欠缺:31.8%;风险规避或治理约束:31.8%;预算限制:29.8%;组织变革阻力:27.3%;对自动化缺乏信任:25%。

AI驱动的智能体自动化正成为新方向

网络自动化在过去主要集中在资源配置和配置管理,即所谓的"零日"和"一日"工作。如今,重心已转向"二日"运营,即对生产环境中网络问题的持续检测、分类、诊断和修复。据EMA报告,79%的受访者将这些任务的自动化列为高度或极高优先级。

各组织正在寻求AI驱动的智能体自动化工具,这类工具能够对网络状况进行推理,并采取自主或半自主的行动。报告发现,55%的受访者表示AI功能是评估新工具时的必要条件,而AI驱动的洞察与自动化能力,也是他们考虑更换现有工具的首要原因。各组织最希望自动化的"二日"任务包括:

安全响应与遏制:54.3%;容量与性能优化:49.7%;故障修复与自愈:44.3%;配置优化:40.3%;事件关联与告警降噪:37.5%;变更验证与回滚:26.4%。

EMA还发现,模型上下文协议(MCP)支持正成为新兴的关键使能技术,它为AI智能体提供了与多种网络管理工具交互的标准接口。研究表明,运营成功的网络团队更倾向于将MCP支持纳入智能体AI工具访问的优先考量。麦吉利卡迪表示:"MCP接入点就像是跨越工具泛滥现象的一个抽象层。"

混合云与多云管理仍是难题

接受调查的组织中,近七成(69%)运营混合云环境,66%采用多云架构。然而,仅有36%的组织表示能完全有效地管理其云网络,这一差距折射出技术复杂性与网络团队和云工程团队之间文化摩擦的双重困境。

EMA发现,核心挑战依然是老生常谈的问题:各云服务商专有的网络构建方式差异显著、遥测数据不一致、网络团队技能短缺,以及跨云和本地环境端到端可见性不足。

麦吉利卡迪表示:"我仍然在和一些网络可观测性厂商交流,他们至今还未能在三大主流云平台上实现功能对等。他们可能在采集和分析AWS数据方面做得不错,但在谷歌云平台上还差得远,更别提那些次要云平台了。"

EMA指出,已成功整合IP地址管理并将网络可观测性工具延伸至混合环境的组织,在整体运营效果上表现更佳,但对于大多数组织而言,这两项工作仍在推进之中。

AI工作负载对网络提出新要求

近半数受访者(47.7%)表示,AI训练或推理工作负载已部署在其网络上,其余大多数也预计在未来两年内完成部署。然而,仅有35%的受访者表示,现有网络可观测性工具已完全具备管理这些工作负载的能力。

针对AI基础设施的性能挑战十分具体:需要同时定位跨网络、应用和GPU集群的问题;需要管理推理尾延迟;还需要将GPU利用率作为网络信号纳入可见范围。团队最希望补强的工具能力包括:

AI驱动的故障排查与修复:51.3%;主动预警AI相关性能风险:49.3%;通过实时数据包分析实现AI工作负载感知:46.9%;以实时流式遥测替代轮询间隔:40.2%;关联GPU、应用与网络性能指标:34.3%。

成功团队的共同特征

EMA研究同样识别出将成功组织与落后组织区分开来的关键实践。研究发现,成功的团队对网络可观测性数据持有严格的准确性标准,已从脚本和手册驱动的方式转向AI驱动和智能体化的管理工具,并将集成优先于整合,聚焦于安全洞察、工作流集成和工具集间的数据共享,而非一味削减工具数量。此外,成功的组织正在构建覆盖本地和云基础设施的统一可见性与安全管控体系。

麦吉利卡迪最后建议:"AI网络,或者说为AI服务的网络,将需要一定程度的工具重塑。我建议大家主动与供应商沟通,了解他们是否在思考这个问题。目前来看,大多数供应商还没有认真对待这件事——很可能是因为没有听到来自客户的声音。"

Q&A

Q1:EMA报告中,企业网络运维团队面临哪些主要挑战?

A:根据EMA《2026年网络管理重大趋势》报告,网络运维团队当前面临四大核心挑战:一是人才短缺,招募网络技术专家困难的组织比例已升至52%;二是工具泛滥,典型组织使用4到10种监控工具,但工具数量与运营成功率之间并无显著关联;三是混合云与多云架构管理复杂;四是现有网络基础设施难以满足AI工作负载的需求,仅35%的组织表示现有工具已准备就绪。

Q2:模型上下文协议(MCP)在网络运维中有什么作用?

A:MCP即模型上下文协议,是一种为AI智能体提供与多种网络管理工具进行标准化交互的接口协议。在网络运维场景中,MCP支持能够作为一个抽象层,帮助AI智能体跨越工具泛滥的现状,统一访问和操作不同厂商的网络管理工具。EMA研究发现,运营成功的网络团队更倾向于将MCP支持列为智能体AI工具访问的优先能力,这有助于推动"二日"运营任务的自动化,提升整体运维效率。

Q3:企业网络团队如何才能更好地应对AI工作负载的挑战?

A:根据EMA报告,企业网络团队应从以下几个方向着手:首先,升级网络可观测性工具,重点补强AI驱动的故障排查、主动预警和实时流式遥测能力;其次,将GPU利用率等AI基础设施指标纳入网络监控范围;再者,积极与工具供应商沟通,推动其在AI网络管理方面的产品演进;最后,参考成功组织的经验,优先推进工具集成与数据共享,构建跨本地和云环境的统一可见性,并引入智能体化自动化管理工具。

来源:Networkworld

0赞

好文章,需要你的鼓励

2026

06/09

17:23

分享

点赞

邮件订阅