当多个数据库集群同时发生故障时,思科IT团队其实已经掌握了诊断问题所需的全部数据。预警信号就在那里,工程师们也看到了。然而问题在于,这些信号分散在彼此不互通的独立系统中,团队无法在事发时进行实时关联分析。
随之而来的,是一场持续三个小时、横跨三条独立会议线路的"战时会议"。工程师们在一条线路上争论问题归属,应用负责人在另一条线路上等待数据库恢复,高管们则在第三条线路上向业务合作伙伴解释为何用户无法下订单。故障根因最终被找到,但宕机已经造成了实际损失。
正是这次事件,促成了一个整合项目的启动。思科IT可观测性团队产品经理Anusha Nataraj在思科Live大会上详细介绍了这一项目的始末。
该项目迄今已将重大事故数量减少25%,并在过去六个季度内实现零重大网络故障。这套系统覆盖超过1500个应用程序,其中逾71个面向外部用户,跨越10万余个端点,每月处理超过1.5万次变更。支撑这次整合的核心平台是Splunk——思科于2024年完成了对其收购。如今,思科IT正在自身的全球基础设施上运行这套由自家研发的产品。
"我们有数据,我们有所有的数据,只是它们没有被串联起来,我们无法从整体上看清全貌。"Nataraj说道。
整合前的碎片化困境
整合前,思科IT的可观测性环境并非存在单一缺口,而是缺口遍布。日志数据被分散存储在部分部署的Splunk实例和Elastic实例中,指标数据则横跨Prometheus、Grafana以及自研解决方案。事件管理运行在另一套独立的自研平台上,这些系统之间互不关联、数据无法互通。
团队曾考虑继续沿用原有的混合方案,包括Datadog和Elastic,也评估过拼接而成的开源替代方案。最终放弃这些方案,主要基于三点原因:无法扩展至思科IT的运营规模、缺乏团队所需的AI能力,以及没有一条思科IT作为客户能够参与影响的产品路线图。
"它们在部门层面可以运转,但无法扩展到我们整个IT体系的需求,而且在AI成熟度上也达不到我们的预期。"Nataraj表示。
她特别强调,这一决策并非受2024年收购事件驱动,团队是基于自身需求对Splunk进行独立评估,最终因其契合度、可扩展性及AI路线图而作出选择。
三步走的整合路径
此次整合遵循明确的三步推进顺序。
第一步,日志整合:将所有日志迁移至Splunk Cloud,同步退役Elastic及其他日志实例。
第二步,指标整合:目前正在推进中,随着工作逐步完成,Prometheus、Grafana及自研技术栈将陆续退役。
第三步,通过ITSI引入业务上下文:团队正在部署IT服务智能平台(ITSI),在统一的日志与指标数据之上叠加业务维度的洞察。
可观测性总体拥有成本削减86%的成果,正是来自第一阶段。超过400台本地服务器及其关联存储设备被下线退役,多平台许可证得以整合,负责监控这些服务器的承包商人员数量也随之缩减。
"我们下线了大量本地服务器,超过400台,与之相关的存储设备也全部关停,这为我们节省了大量成本。"Nataraj说。
从"战时会议"到单屏处置
运营模式的变革在事故响应方式上体现得最为直观。大会期间播放的一段演示视频完整呈现了现有的工作流程。
当ITSI触发告警时,只需单击一下,即可启动一个定制化AI智能体,该智能体能够实时查询日志、指标、链路追踪数据、拓扑结构及近期变更记录,随即以自然语言形式输出故障摘要,说明"故障是什么、为何发生、如何修复",并为DevOps、应用及SRE团队分别提供针对性的处置建议。如需升级处理,智能体还会自动为值班工程师起草交接说明。整个排查过程在单一界面内完成,甚至无需创建事故工单。
成效显而易见。一旦出现问题,三线并行的"战时会议"已成历史,团队可以直接定位问题所在,响应行动只涉及真正需要处理的人员。"我们的事故数量实际上已下降25%,在过去六个季度中没有发生任何重大网络故障。"Nataraj说。
对同规模IT运营团队的实践启示
Nataraj为同等规模的IT运营团队梳理了这一项目的几点实用经验。
先统一数据,再引入AI。没有统一的数据平台,AI就没有可靠的基础可言。必须先将所有数据纳入统一架构,一切才有意义。
实现跨团队数据共享。数据关联分析只有在相关团队能够访问数据的前提下才有价值,因此该团队从一开始就构建了跨域数据共享机制。
将变更与发布数据纳入可观测性体系。将变更管理记录与可观测性数据打通,使团队能够将故障追溯至引发问题的具体变更,并维护相应的回滚方案。
将成本节约转化为创新预算。总体拥有成本的大幅削减,为团队从日常监控工作中解放出来提供了资源保障。原本负责容量管理和服务器监控的工程师,如今正在基于Splunk的MCP工具构建AI智能体,参与新工具的Alpha和Beta测试,并将产品反馈直接输送给思科Splunk团队。
"以前他们纯粹是在关闭工单,"Nataraj说,"现在他们是创新者,戴上了产品经理的帽子,对自己的工作真的感到满意。"
工作满意度提升、人才留存率改善、承包商数量减少,Nataraj将这些都列为项目可量化的投资回报。"让团队保持积极性、让他们感到满意,对每一个组织来说都是实实在在的投资回报。"她说。
Q&A
Q1:思科IT的可观测性整合项目具体取得了哪些成果?
A:该项目在可观测性总体拥有成本上实现了86%的削减,主要来自退役超过400台本地服务器及其存储设备、整合多平台许可证以及减少承包商人员。与此同时,重大事故数量下降25%,过去六个季度内实现零重大网络故障。覆盖范围涵盖超过1500个应用程序、逾10万个端点,每月处理超过1.5万次变更。
Q2:思科IT为什么选择Splunk作为可观测性整合的核心平台?
A:团队对包括Datadog、Elastic及开源替代方案在内的多个选项进行了评估,最终放弃它们的原因有三:无法扩展至思科IT的运营规模、AI能力成熟度不足,以及缺乏思科IT作为客户能够参与影响的产品路线图。Splunk凭借契合度、可扩展性及AI发展路线图脱颖而出,这一决策独立于2024年的收购事件之外。
Q3:思科IT在事故响应中使用的AI智能体是如何工作的?
A:当ITSI触发告警时,工程师只需单击一下即可启动定制化AI智能体,该智能体实时查询日志、指标、链路追踪、拓扑及变更记录,以自然语言输出故障原因与修复建议,并为DevOps、应用和SRE团队提供针对性操作指引。如需升级,智能体还会自动起草值班交接说明,整个过程在单一界面内完成。
好文章,需要你的鼓励
Velotric Tempo是一款以骑行体验为核心的轻量级通勤电动自行车,整车重量仅17.7kg。配备350W后轮毂电机和360Wh电池,续航可达50-65公里。支持踏频与扭矩传感器双模式切换,骑行感受自然流畅。内置Apple Find My及安卓追踪功能,具备UL认证和IPX6/IPX7防水等级。主要不足在于Class 3模式下油门被完全禁用,油门手感欠佳,且售价1499美元略偏高,挡泥板和后货架需另购。
PaW是一种为AI智能体设计的协同训练框架,无需额外模型或数据,仅利用强化学习训练中已有的轨迹数据,让智能体同时学会决策与预测环境变化,在多个任务上取得稳定提升。
一家加拿大家具制造商借助发那科M-710iC工业机器人,成功将传统劳动密集型软垫工序自动化。该系统由发那科授权系统集成商Dvolu开发,集机器视觉、机器人操作与激光裁剪于一体,可完成面料拉伸、钉合、裁剪及码垛等工序,无需人工干预即可适应零件差异。项目旨在解决家具行业劳动力短缺问题,为难以招募和留用工人的岗位提供有效替代方案。
萨尔大学团队提出语义运动锚点方法,通过自动生成同时描述手势外观与交流意图的自然语言说明书,让AI更准确地检索与语言语义匹配的手势,在BEAT2数据集上检索准确率提升8.2%。