思科IT如何将可观测性成本削减86%并消除重大网络故障

思科IT团队曾因多套互不连通的监控系统，导致数据库集群故障时需召开三路战情会议，历时三小时才定位根因。此后，团队以Splunk为核心平台推进可观测性整合，退役逾400台本地服务器，统一日志、指标与事件管理。整合后，观测成本降低86%，重大事件减少25%，近六个季度实现零重大网络故障。AI智能体可在单一界面完成实时告警分析、根因定位与修复建议，工程师角色也从"工单处理者"转变为AI创新者。

当多个数据库集群同时发生故障时，思科IT团队其实已经掌握了诊断问题所需的全部数据。预警信号就在那里，工程师们也看到了。然而问题在于，这些信号分散在彼此不互通的独立系统中，团队无法在事发时进行实时关联分析。

随之而来的，是一场持续三个小时、横跨三条独立会议线路的"战时会议"。工程师们在一条线路上争论问题归属，应用负责人在另一条线路上等待数据库恢复，高管们则在第三条线路上向业务合作伙伴解释为何用户无法下订单。故障根因最终被找到，但宕机已经造成了实际损失。

正是这次事件，促成了一个整合项目的启动。思科IT可观测性团队产品经理Anusha Nataraj在思科Live大会上详细介绍了这一项目的始末。

该项目迄今已将重大事故数量减少25%，并在过去六个季度内实现零重大网络故障。这套系统覆盖超过1500个应用程序，其中逾71个面向外部用户，跨越10万余个端点，每月处理超过1.5万次变更。支撑这次整合的核心平台是Splunk——思科于2024年完成了对其收购。如今，思科IT正在自身的全球基础设施上运行这套由自家研发的产品。

"我们有数据，我们有所有的数据，只是它们没有被串联起来，我们无法从整体上看清全貌。"Nataraj说道。

整合前的碎片化困境

整合前，思科IT的可观测性环境并非存在单一缺口，而是缺口遍布。日志数据被分散存储在部分部署的Splunk实例和Elastic实例中，指标数据则横跨Prometheus、Grafana以及自研解决方案。事件管理运行在另一套独立的自研平台上，这些系统之间互不关联、数据无法互通。

团队曾考虑继续沿用原有的混合方案，包括Datadog和Elastic，也评估过拼接而成的开源替代方案。最终放弃这些方案，主要基于三点原因：无法扩展至思科IT的运营规模、缺乏团队所需的AI能力，以及没有一条思科IT作为客户能够参与影响的产品路线图。

"它们在部门层面可以运转，但无法扩展到我们整个IT体系的需求，而且在AI成熟度上也达不到我们的预期。"Nataraj表示。

她特别强调，这一决策并非受2024年收购事件驱动，团队是基于自身需求对Splunk进行独立评估，最终因其契合度、可扩展性及AI路线图而作出选择。

三步走的整合路径

此次整合遵循明确的三步推进顺序。

第一步，日志整合：将所有日志迁移至Splunk Cloud，同步退役Elastic及其他日志实例。

第二步，指标整合：目前正在推进中，随着工作逐步完成，Prometheus、Grafana及自研技术栈将陆续退役。

第三步，通过ITSI引入业务上下文：团队正在部署IT服务智能平台（ITSI），在统一的日志与指标数据之上叠加业务维度的洞察。

可观测性总体拥有成本削减86%的成果，正是来自第一阶段。超过400台本地服务器及其关联存储设备被下线退役，多平台许可证得以整合，负责监控这些服务器的承包商人员数量也随之缩减。

"我们下线了大量本地服务器，超过400台，与之相关的存储设备也全部关停，这为我们节省了大量成本。"Nataraj说。

从"战时会议"到单屏处置

运营模式的变革在事故响应方式上体现得最为直观。大会期间播放的一段演示视频完整呈现了现有的工作流程。

当ITSI触发告警时，只需单击一下，即可启动一个定制化AI智能体，该智能体能够实时查询日志、指标、链路追踪数据、拓扑结构及近期变更记录，随即以自然语言形式输出故障摘要，说明"故障是什么、为何发生、如何修复"，并为DevOps、应用及SRE团队分别提供针对性的处置建议。如需升级处理，智能体还会自动为值班工程师起草交接说明。整个排查过程在单一界面内完成，甚至无需创建事故工单。

成效显而易见。一旦出现问题，三线并行的"战时会议"已成历史，团队可以直接定位问题所在，响应行动只涉及真正需要处理的人员。"我们的事故数量实际上已下降25%，在过去六个季度中没有发生任何重大网络故障。"Nataraj说。

对同规模IT运营团队的实践启示

Nataraj为同等规模的IT运营团队梳理了这一项目的几点实用经验。

先统一数据，再引入AI。没有统一的数据平台，AI就没有可靠的基础可言。必须先将所有数据纳入统一架构，一切才有意义。

实现跨团队数据共享。数据关联分析只有在相关团队能够访问数据的前提下才有价值，因此该团队从一开始就构建了跨域数据共享机制。

将变更与发布数据纳入可观测性体系。将变更管理记录与可观测性数据打通，使团队能够将故障追溯至引发问题的具体变更，并维护相应的回滚方案。

将成本节约转化为创新预算。总体拥有成本的大幅削减，为团队从日常监控工作中解放出来提供了资源保障。原本负责容量管理和服务器监控的工程师，如今正在基于Splunk的MCP工具构建AI智能体，参与新工具的Alpha和Beta测试，并将产品反馈直接输送给思科Splunk团队。

"以前他们纯粹是在关闭工单，"Nataraj说，"现在他们是创新者，戴上了产品经理的帽子，对自己的工作真的感到满意。"

工作满意度提升、人才留存率改善、承包商数量减少，Nataraj将这些都列为项目可量化的投资回报。"让团队保持积极性、让他们感到满意，对每一个组织来说都是实实在在的投资回报。"她说。

Q&A

Q1：思科IT的可观测性整合项目具体取得了哪些成果？

A：该项目在可观测性总体拥有成本上实现了86%的削减，主要来自退役超过400台本地服务器及其存储设备、整合多平台许可证以及减少承包商人员。与此同时，重大事故数量下降25%，过去六个季度内实现零重大网络故障。覆盖范围涵盖超过1500个应用程序、逾10万个端点，每月处理超过1.5万次变更。

Q2：思科IT为什么选择Splunk作为可观测性整合的核心平台？

A：团队对包括Datadog、Elastic及开源替代方案在内的多个选项进行了评估，最终放弃它们的原因有三：无法扩展至思科IT的运营规模、AI能力成熟度不足，以及缺乏思科IT作为客户能够参与影响的产品路线图。Splunk凭借契合度、可扩展性及AI发展路线图脱颖而出，这一决策独立于2024年的收购事件之外。

Q3：思科IT在事故响应中使用的AI智能体是如何工作的？

A：当ITSI触发告警时，工程师只需单击一下即可启动定制化AI智能体，该智能体实时查询日志、指标、链路追踪、拓扑及变更记录，以自然语言输出故障原因与修复建议，并为DevOps、应用和SRE团队提供针对性操作指引。如需升级，智能体还会自动起草值班交接说明，整个过程在单一界面内完成。

来源：Networkworld

0赞

好文章，需要你的鼓励

思科IT如何将可观测性成本削减86%并消除重大网络故障

来源：Networkworld

2026

06/08

14:25

分享

点赞

发那科机器人工作单元实现家具制造中最难工序的自动化

TeamViewer与微软携手，以AI和AR技术革新远程协作体验

AirTrunk宣布投资300亿美元，在印度建设5GW AI数据中心

微软发布自主AI智能体Scout，基于OpenClaw框架构建

思科IT如何将可观测性成本削减86%并消除重大网络故障

罗技Keys-to-Go 2无线键盘降至新低价，便携iPad利器

谷歌入场后，AI智能体最重要的功能已成行业标配

AI预算爆炸：Token滥用现象蔓延企业界

Snowflake斥资60亿美元深化与AWS合作，全力布局AI基础设施

Claude Opus 4.8正式发布：支持算力调节、动态工作流与更强诚实性

AWS为何彻底重构OpenSearch架构以应对智能体工作负载

AI生成代码速度已超越安全防护能力，Snyk推出持续攻防测试产品

AI时代如何避免网络管理工具的重叠与混乱

AWS推出Graviton驱动的Redshift RG实例以降低分析成本

快速成长型企业如何借助履约解决方案实现高效运营

迁移至大型机或比继续使用VMware更划算：Gartner报告揭示

Datadog推出GPU监控功能，助力企业应对AI成本攀升挑战

Grafana免费开放AI助手，CEO幽默提醒用户适度使用

Shutterstock CTO分享AI规模化部署经验：避免供应商泛滥的策略

如何通过markdown调整将Claude输出成本减半

多险种保险是否更适合数据中心风险保障

Gartner预测AI推理成本将大幅下降90%

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: