思科IT如何将可观测性成本削减86%并消除重大网络故障

思科IT团队曾因多套互不连通的监控系统,导致数据库集群故障时需召开三路战情会议,历时三小时才定位根因。此后,团队以Splunk为核心平台推进可观测性整合,退役逾400台本地服务器,统一日志、指标与事件管理。整合后,观测成本降低86%,重大事件减少25%,近六个季度实现零重大网络故障。AI智能体可在单一界面完成实时告警分析、根因定位与修复建议,工程师角色也从"工单处理者"转变为AI创新者。

当多个数据库集群同时发生故障时,思科IT团队其实已经掌握了诊断问题所需的全部数据。预警信号就在那里,工程师们也看到了。然而问题在于,这些信号分散在彼此不互通的独立系统中,团队无法在事发时进行实时关联分析。

随之而来的,是一场持续三个小时、横跨三条独立会议线路的"战时会议"。工程师们在一条线路上争论问题归属,应用负责人在另一条线路上等待数据库恢复,高管们则在第三条线路上向业务合作伙伴解释为何用户无法下订单。故障根因最终被找到,但宕机已经造成了实际损失。

正是这次事件,促成了一个整合项目的启动。思科IT可观测性团队产品经理Anusha Nataraj在思科Live大会上详细介绍了这一项目的始末。

该项目迄今已将重大事故数量减少25%,并在过去六个季度内实现零重大网络故障。这套系统覆盖超过1500个应用程序,其中逾71个面向外部用户,跨越10万余个端点,每月处理超过1.5万次变更。支撑这次整合的核心平台是Splunk——思科于2024年完成了对其收购。如今,思科IT正在自身的全球基础设施上运行这套由自家研发的产品。

"我们有数据,我们有所有的数据,只是它们没有被串联起来,我们无法从整体上看清全貌。"Nataraj说道。

整合前的碎片化困境

整合前,思科IT的可观测性环境并非存在单一缺口,而是缺口遍布。日志数据被分散存储在部分部署的Splunk实例和Elastic实例中,指标数据则横跨Prometheus、Grafana以及自研解决方案。事件管理运行在另一套独立的自研平台上,这些系统之间互不关联、数据无法互通。

团队曾考虑继续沿用原有的混合方案,包括Datadog和Elastic,也评估过拼接而成的开源替代方案。最终放弃这些方案,主要基于三点原因:无法扩展至思科IT的运营规模、缺乏团队所需的AI能力,以及没有一条思科IT作为客户能够参与影响的产品路线图。

"它们在部门层面可以运转,但无法扩展到我们整个IT体系的需求,而且在AI成熟度上也达不到我们的预期。"Nataraj表示。

她特别强调,这一决策并非受2024年收购事件驱动,团队是基于自身需求对Splunk进行独立评估,最终因其契合度、可扩展性及AI路线图而作出选择。

三步走的整合路径

此次整合遵循明确的三步推进顺序。

第一步,日志整合:将所有日志迁移至Splunk Cloud,同步退役Elastic及其他日志实例。

第二步,指标整合:目前正在推进中,随着工作逐步完成,Prometheus、Grafana及自研技术栈将陆续退役。

第三步,通过ITSI引入业务上下文:团队正在部署IT服务智能平台(ITSI),在统一的日志与指标数据之上叠加业务维度的洞察。

可观测性总体拥有成本削减86%的成果,正是来自第一阶段。超过400台本地服务器及其关联存储设备被下线退役,多平台许可证得以整合,负责监控这些服务器的承包商人员数量也随之缩减。

"我们下线了大量本地服务器,超过400台,与之相关的存储设备也全部关停,这为我们节省了大量成本。"Nataraj说。

从"战时会议"到单屏处置

运营模式的变革在事故响应方式上体现得最为直观。大会期间播放的一段演示视频完整呈现了现有的工作流程。

当ITSI触发告警时,只需单击一下,即可启动一个定制化AI智能体,该智能体能够实时查询日志、指标、链路追踪数据、拓扑结构及近期变更记录,随即以自然语言形式输出故障摘要,说明"故障是什么、为何发生、如何修复",并为DevOps、应用及SRE团队分别提供针对性的处置建议。如需升级处理,智能体还会自动为值班工程师起草交接说明。整个排查过程在单一界面内完成,甚至无需创建事故工单。

成效显而易见。一旦出现问题,三线并行的"战时会议"已成历史,团队可以直接定位问题所在,响应行动只涉及真正需要处理的人员。"我们的事故数量实际上已下降25%,在过去六个季度中没有发生任何重大网络故障。"Nataraj说。

对同规模IT运营团队的实践启示

Nataraj为同等规模的IT运营团队梳理了这一项目的几点实用经验。

先统一数据,再引入AI。没有统一的数据平台,AI就没有可靠的基础可言。必须先将所有数据纳入统一架构,一切才有意义。

实现跨团队数据共享。数据关联分析只有在相关团队能够访问数据的前提下才有价值,因此该团队从一开始就构建了跨域数据共享机制。

将变更与发布数据纳入可观测性体系。将变更管理记录与可观测性数据打通,使团队能够将故障追溯至引发问题的具体变更,并维护相应的回滚方案。

将成本节约转化为创新预算。总体拥有成本的大幅削减,为团队从日常监控工作中解放出来提供了资源保障。原本负责容量管理和服务器监控的工程师,如今正在基于Splunk的MCP工具构建AI智能体,参与新工具的Alpha和Beta测试,并将产品反馈直接输送给思科Splunk团队。

"以前他们纯粹是在关闭工单,"Nataraj说,"现在他们是创新者,戴上了产品经理的帽子,对自己的工作真的感到满意。"

工作满意度提升、人才留存率改善、承包商数量减少,Nataraj将这些都列为项目可量化的投资回报。"让团队保持积极性、让他们感到满意,对每一个组织来说都是实实在在的投资回报。"她说。

Q&A

Q1:思科IT的可观测性整合项目具体取得了哪些成果?

A:该项目在可观测性总体拥有成本上实现了86%的削减,主要来自退役超过400台本地服务器及其存储设备、整合多平台许可证以及减少承包商人员。与此同时,重大事故数量下降25%,过去六个季度内实现零重大网络故障。覆盖范围涵盖超过1500个应用程序、逾10万个端点,每月处理超过1.5万次变更。

Q2:思科IT为什么选择Splunk作为可观测性整合的核心平台?

A:团队对包括Datadog、Elastic及开源替代方案在内的多个选项进行了评估,最终放弃它们的原因有三:无法扩展至思科IT的运营规模、AI能力成熟度不足,以及缺乏思科IT作为客户能够参与影响的产品路线图。Splunk凭借契合度、可扩展性及AI发展路线图脱颖而出,这一决策独立于2024年的收购事件之外。

Q3:思科IT在事故响应中使用的AI智能体是如何工作的?

A:当ITSI触发告警时,工程师只需单击一下即可启动定制化AI智能体,该智能体实时查询日志、指标、链路追踪、拓扑及变更记录,以自然语言输出故障原因与修复建议,并为DevOps、应用和SRE团队提供针对性操作指引。如需升级,智能体还会自动起草值班交接说明,整个过程在单一界面内完成。

来源:Networkworld

0赞

好文章,需要你的鼓励

2026

06/08

14:25

分享

点赞

邮件订阅