"积木堵塞"原指河道中大量原木堆积形成的无法移动的乱象。在网络这条信息河流上,网络管理人员同样面临属于自己的"堵塞"困境。
这些堵塞以海量日志的形式呈现:过多的网络日志占用CPU资源、撑爆内存,让网络团队在试图分辨哪些日志值得关注、应该采取行动时不知所措。
与此同时,数据与工作流的日常堵塞正在演变为更深层的问题。网络人员需要同时驾驭标准网络监控、可观测性、AIOps以及智能体等工具,这些工具以越来越细粒度的方式监测遥测数据和网络事件,彼此之间存在功能重叠,造成企业IT预算的浪费。IT部门应如何控制成本?在尚未厘清各工具用途的情况下,网络人员又该如何避免重复劳动?
了解需要解决的网络问题类型
当今的IT网络横跨中央IT、边缘站点、云端位置以及远程家庭和外勤办公室。许多站点仍在使用的标准网络监控工具,最初是为单一企业网络这类单体架构设计的,无法应对超越企业边界的混合网络拓扑的复杂性。
业界对此已有共识,网络厂商亦然。由于几乎没有机构还在运行单体企业网络,更新网络管理路线图的需求已显而易见。
核心问题在于:应升级到哪些工具和方法论?哪些现有工具可以淘汰?
理清工具矩阵
网络监控与治理工具大致可分为四类:
第一类:标准网络监控
标准网络监控是一项成熟技术,各站点对其高度熟悉。它依赖网络流量、CPU与存储利用率、错误容忍度和响应时间等指标,但这些指标必须由IT人员预先定义。当预定义的指标被超出时,监控工具发出告警,随后由IT人员定位并解决问题。
第二类:可观测性
标准网络监控的局限在于,它只能报告IT预先定义的内容。可观测性则更进一步——不仅能报告指标违规,还能呈现违规发生的位置和原因。它通过综合分析指标、日志和追踪数据来实现这一点,且软件可自主完成分析,帮助IT团队在问题处理上赢得先机。
第三类:AIOps
AIOps旨在通过引入更多AI与自动化能力,进一步扩展可观测性的问题处理范围。然而,AIOps的不足在于,分析数据时缺乏对网络事件上下文的深入理解,甚至无法判断所分析的遥测数据是否有效。因此,仍需网络专业人员介入,以确认AIOps发现的内容是否可信,并执行相应修复。
第四类:AI网络智能体
新一波AI网络智能体工具,尝试进一步减少网络人员在问题处理中的干预需求。AI智能体能够自动检测并解决问题,其方式是通过机器学习回顾网络历史性能,从中建立对网络应有运行状态的业务背景认知。
管理过渡期的五项最佳实践
从标准网络监控,到可观测性,再到AIOps,最终迈向AI网络智能体,这是网络管理软件的自然演进路径。企业和厂商对此已有共识,一条进化式的网络管理路线图也随之成形。
然而,在踏上这条路线图之前,企业必须从工具、人员、业务需求和预算投入等维度,评估自身当前所处的位置。以下是五项最佳实践:
一、盘点现有工具组合
对许多IT网络团队而言,梳理当前在用工具——以及那些已被遗忘、束之高阁的工具——是一项艰巨的任务,但现在正是着手的时机。
应对企业全网的网络管理工具进行全面清点,无论是数据中心的本地网络、企业边缘站点,还是云端部署,均应纳入范围。
工具应按功能分类,发现功能重叠者应予以淘汰。若不同网络位置使用了功能相同的不同工具,应统一标准化为单一工具集,从而简化员工的使用和培训工作。
二、与厂商对接,评估其路线图
工具盘点与评估的重要一环,是与工具厂商沟通,了解其产品路线图的走向。
网络管理的演进方向已十分明确:标准网络监控→可观测性→AIOps→AI网络智能体。
若厂商的路线图中缺乏这一演进路径,则应考虑寻找具备此规划的替代厂商。
三、为AIOps提升人员技能
大多数企业网络团队已对标准监控工具驾轻就熟,并已在使用可观测性工具。
下一步是通过AIOps将自动化引入可观测性,这一过程仍在推进中,因为它需要重新调整乃至重构网络工作流程。
网络人员不仅要学习新的AIOps工具,还要掌握如何将AIOps自动化整合进网络日常工作流与运营中。
这些变化必须形成文档记录,而文档管理恰恰是网络运营中的薄弱环节。为确保运营文档与工作流变化同步,建议引入外部审计人员审查文档与运营状况,及时发现并纠正不一致之处。
四、谨慎部署AI智能体
完全依赖AI智能体实现网络运营自动化的愿景,目前仍更多停留于理论层面,而非实际落地。
尽管如此,已有部分站点开始小范围试水。
AI网络智能体通过机器学习回顾历史网络性能,以获取自动化所需的业务背景,但它们并不具备网络工程师的实操经验与专业判断能力。
最佳实践是:优先将AI网络智能体部署在高度可预测、管控严格、变化或异常风险极低的网络环境中。
五、评估遗留技术的价值
遗留技术不只意味着"老旧",它同样代表着"经过验证、久经考验、设计持久"。
有些网络管理工具历经时间洗礼,至今仍表现良好。
站点在审视工具库时,应认真评估哪些工具依然在持续创造价值。
该升级的工具和技能,当然要升级;但那些仍在有效运作的工具,不必轻易丢弃。
Q&A
Q1:AIOps和标准网络监控有什么区别?
A:标准网络监控只能报告IT预先定义的指标,超出阈值时告警,定位和修复问题仍需人工介入。AIOps则在可观测性的基础上引入更多AI与自动化能力,能更主动地处理问题,但仍存在局限——它对网络事件的上下文理解不足,甚至无法判断所分析的遥测数据是否有效,因此仍需网络专业人员确认其发现并执行修复。
Q2:AI网络智能体和AIOps有什么不同?
A:AIOps在问题处理上仍需人工介入验证,而AI网络智能体更进一步,能够自动检测并解决网络问题,无需人工干预。其原理是通过机器学习回顾历史网络性能,建立对网络正常运行状态的业务背景认知。不过,智能体目前更多停留于理论层面,缺乏人类网络工程师的实操经验,建议先在低风险、高可预测的网络环境中试点部署。
Q3:企业在过渡到新网络管理工具时应该怎么做?
A:企业应遵循五项最佳实践:首先全面盘点现有工具,淘汰功能重叠的工具并标准化工具集;其次与厂商对接,评估其是否具备清晰的演进路线图;再次为团队提供AIOps相关技能培训,并做好流程文档记录;然后谨慎、小范围地试点部署AI网络智能体;最后评估遗留工具的持续价值,避免盲目淘汰仍在有效运作的系统。
好文章,需要你的鼓励
思科在Cisco Live大会上推出Cloud Control,这是一个跨网络、安全、计算、可观测性与协作的统一管理平台。它提供单一登录、统一视图和共同操作模型,整合Meraki、Splunk、Intersight等产品。平台内置AI Canvas多人协作工作区,支持人机协同排障;Marketplace已接入AWS、微软、ServiceNow等50余家生态伙伴。思科将其定位为AI时代的核心运营层,致力于将庞大产品组合真正转化为统一平台。
谷歌DeepMind等机构推出3DCodeBench,评测12款顶级AI用代码生成3D模型的能力,揭示当前AI在几何推理上的核心短板与改进方向。
今天讲的出海案例是明阳电气,这家输配电设备公司在马来西亚投产首个海外生产基地,并以 250 万林吉特子公司承接本地制造。
SambaNova Systems团队提出LongAttnComp,通过训练轻量级交叉注意力评分层,将超长文本压缩至关键片段后再送入大模型,在代码调试任务上超越全文本基线,并跨模型家族泛化。