AIOps如何变革AI时代的IT运维管理

AIOps是AI驱动IT运维的新兴实践,利用机器学习和自动化帮助企业监控、管理复杂数字系统。它整合日志、指标和事件数据,提前发现问题并识别根本原因。生成式AI为传统AIOps增添了对话界面和上下文推理能力。成功实施需要从小规模开始,结合硬规则与机器学习检测,确保可解释性。AIOps工程师扮演跨学科角色,需要数据质量管理和文化变革支持。尽管自动化程度提高,人类专业知识仍不可或缺。

AIOps定义与核心概念

AIOps是"AI for IT operations"的缩写,是一种新兴的运维实践,利用机器学习和自动化技术帮助组织监控、管理和故障排除复杂的数字系统。实施AIOps的公司使用AI驱动的工具,结合来自基础设施和应用程序的日志、指标和事件数据,提前发现问题,识别根本原因,并在用户察觉问题之前触发响应。

AT&T首席数据/AI工程师Monika Malik将早期AIOps模式描述为:"数据摄取 → 关联分析 → 检测异常事件 → 预测可能原因 → 编排修复措施"。如今,大语言模型正在为这一流程增添新的智能层。"生成式AI是增强型的,而非替代性的,"她表示,"大语言模型用于推理/总结、运维副驾驶和知识检索,但数据、规则和机器学习仍然是基础。"

AIOps与DevOps的区别

DevOps和AIOps在理念上有相同的DNA,都关注自动化、反馈循环和系统响应性,但它们在技术栈的不同层级发挥作用。

数据基础设施工程师Kostas Pardalis解释道:"DevOps专注于自动化和简化软件开发生命周期。AIOps将这种理念扩展到运维领域,将机器学习和推理作为一级运维操作。"换句话说:DevOps帮助你可靠快速地发布和部署;AIOps帮助你更智能地监控、检测和修复生产环境问题。

Litera公司CTO Greg Ingino将两者视为互补关系:DevOps管理我们如何构建和交付系统,而"AIOps管理我们如何在生产环境中运维和优化这些系统。DevOps推动速度,而AIOps确保稳定性。"

AIOps平台的核心组件

一个有效的AIOps平台需要三个层级。首先是"跨日志、指标、跟踪和非结构化事件的数据收集和规范化"。其次是"推理优先的管道,能够概率性地分类、丰富和关联信号,而不仅仅是确定性地处理"。最后需要"可观测性和治理,让团队能够信任AI输出——包括血统追踪、评估和成本控制。没有这些,你要么被数据淹没,要么得到一个没人信任的黑盒子。"

FedEx高级云工程师Milankumar Rana描述了一个更详细的架构,它将传统可观测性与生成智能相结合。许多部署依赖于开源技术栈如ELK、Prometheus和OpenTelemetry,而商业工具如Splunk、Elastic Observability、LogicMonitor和IBM的AIOps套件则增加了"用于自然语言查询、事件总结和自主修复的生成式AI"。云提供商也加入其中,AWS和Azure都添加了AIOps驱动的事件洞察和异常检测功能。

AIOps实施策略

成功的AIOps部署很少从大规模推广开始,而是通过渐进式步骤、可衡量的成果和建立信任来实现。AT&T的Malik建议以下步骤:

从小处着手:选择两到三个长期产生大量噪音的服务,定义成功标准——例如,减少30%的噪音,提高20%的平均修复时间。

混合检测:将SLO违规的硬规则与基于机器学习的异常检测相结合,避免过早采用"纯机器学习"方法。

使可解释性可见:每个仪表板或提示都应显示为什么某件事被带到用户注意——类似的过去事件、知识库参考等。

分阶段引入自动化:从只读洞察开始,然后允许系统在人工批准下开始建议行动,最后转向有限的自动执行(带有回滚保护)。

衡量和每周发布:跟踪诸如平均响应时间/平均修复时间、误报、L1处理量和节省的值班时间等指标。

AIOps的优势与挑战

当AIOps发挥作用时,其优势立竿见影且可衡量。Ingino表示,在Litera,回报体现在"更快的事件检测、更少的误报和更高的系统可靠性"。除了提高正常运行时间,他还注意到"AIOps显著减少了运维团队的认知负荷,让他们能够专注于更高价值的工程工作。"

SWBC质量工程总监Nagmani Lnu同意最大的好处来自更早、更准确的检测和解决方案。当AIOps成功实施时,"公司将真正看到主动检测问题并实时解决问题的好处,将改善他们的平均修复时间,从而改善业务的IT体验。"

然而,挑战可能与回报一样显著。Ingino说最困难的问题是"数据质量和文化变革"。AIOps"只有数据有多智能,它就有多智能",因此确保一致、上下文化的摄取至关重要。信任是另一个反复出现的主题。"团队需要信任AI,这意味着透明度、血统追踪和调试能力。"

主要AIOps工具

当今的AIOps市场涵盖了传统可观测性平台和为推理优先工作负载构建的AI原生框架。Pardalis解释:"传统可观测性供应商如Datadog、Splunk和New Relic正在其平台之上分层AI。然后是AI原生框架——如Typedef或开源技术栈如Ray和Polars——让你直接在数据管道内部操作推理。"

正确的选择取决于公司是希望在现有监控基础上增量添加AI,还是需要自下而上的推理驱动架构。SWBC的Lnu指出"大多数AIOps平台具有非常相似的功能",但他认为"Dynatrace、Splunk、Datadog、New Relic和BigPanda"是持续的领导者。

AIOps工程师的角色

AIOps工程师承担跨学科角色,结合站点可靠性工程师、数据科学家和自动化专家的技能。这个角色是"站点可靠性工程师的进化。AIOps工程师不仅仅是自动化手册,他们正在设计推理在循环中的管道。"这包括"为可观测性策划数据,训练或微调异常检测模型,以及部署推理优先的工作流程,实时理解日志、跟踪和指标。"

技术专家Chirag Agrawal强调,虽然有些人认为AIOps工程师只是工具配置技术人员,但他们的真正影响在于理解、管理和策划AIOps工具将使用的数据。"当摄取低质量数据时,产生的结果就很糟糕,"他说,最好的AIOps工程师是那些"深度理解其环境特定的日志、指标和依赖关系"的人,而不一定需要正式的AI背景。

生成式AI在DevOps中的应用

AT&T的Malik分享了她的团队如何使用精心设计的生成式AI提示来支持生产环境中的AIOps任务的示例。每个提示都建立在检索系统之上(从运维手册、过去事件和标准操作程序中提取),并且只与批准的工具交互。

她的团队使用的提示类型包括:事件汇总器(用于值班交接)、根本原因分析助手(基于证据权重)、运维手册推荐器(人在环路中)、事后分析起草器(带引用)等。

每个提示都保持严格的防护措施:检索优先方法、工具使用限制、置信度阈值、每个输出都包含"来源"部分用于审计、任何可能影响生产系统的行动都需要人工批准。

实际AIOps应用案例

AIOps在各行业的生产环境中越来越证明其价值。在云原生环境中,组织使用AIOps"监控容器健康,检测容器间异常的CPU、内存或网络使用",并"预测高流量期以预热Lambda函数以避免冷启动延迟"。

Chirag Agrawal分享了一个以人为本的成功故事。他的团队开发了"一个AI智能体,识别通常在团队间重新分配的工单。这些工单无需任何人工干预即可自动正确路由。"结果:每季度节省数百小时,投资回报明确。

Litera的Ingino回忆了一个场景,AIOps工具检测到"服务中的细微性能漂移,标准监控可能会错过"。平台"关联了多个微服务的异常,精确定位源头,并在用户体验任何降级之前触发响应。"这单一事件"验证了整个投资"。从那时起,Litera看到"事件解决时间下降了70%以上"。

人类在AIOps世界中的角色

即使AIOps变得更加强大——关联事件、总结故障并推荐修复——人类专业知识仍然必不可少。Chirag Agrawal直言:"AI可以自动化模式识别,但上下文和意图必须由了解这些系统在现实环境中如何行为的人来提供。"

AIOps擅长筛选遥测数据、检测异常和加速根本原因分析,但仍依赖人类判断来解释含义、验证影响并决定自动化应如何演进。"当人类洞察力和机器智能并肩发展,而不是一个取代另一个时,AIOps效果最佳。"

这种合作关系也推动长期进步。每个解决的事件都加强了系统的知识库,改善未来响应并减少繁重工作。"AIOps的真正承诺不仅体现在自动化中,还体现在所构建的集体记忆中。"

从这个意义上说,AIOps并没有让人类过时——它放大了人类的能力。工程师与这些系统分享的上下文越多,它们就越能将原始数据转化为运维智能。

Q&A

Q1:AIOps是什么?它与传统IT运维有什么区别?

A:AIOps是"AI for IT operations"的缩写,是一种利用机器学习和自动化技术的新兴运维实践。它能够结合基础设施和应用程序的日志、指标和事件数据,提前发现问题,识别根本原因,并在用户察觉问题之前自动触发响应,比传统运维更加智能和主动。

Q2:AIOps实施会面临哪些主要挑战?

A:主要挑战包括数据质量问题和文化变革阻力。AIOps的智能程度完全依赖于数据质量,因此需要确保数据的一致性和上下文化摄取。另外,团队需要建立对AI系统的信任,这要求系统具备透明度、血统追踪和调试能力,同时还需要适当的成本控制和安全防护措施。

Q3:人类在AIOps时代还有什么价值?

A:人类专业知识仍然必不可少。AI可以自动化模式识别,但上下文和意图必须由了解系统实际运行行为的人来提供。AIOps擅长处理数据和检测异常,但仍依赖人类判断来解释含义、验证影响并决定自动化的演进方向。最佳效果来自人类洞察力与机器智能的协同合作。

来源:CIO.com

0赞

好文章,需要你的鼓励

2025

11/06

08:36

分享

点赞

邮件订阅