随着AI智能体开始在IT基础设施中大量涌现,IT领导者们正在将思考重心从"如何监控每一条告警"转向"如何构建能够自我解决问题的基础设施"。
运维团队如今可以部署智能体来对告警进行分类、关联运营数据,并在无需持续人工监督的情况下自动执行某些修复步骤。这种释放人力、转而投入更有价值的战略性工作的潜力,可能成为IT管理方式的重大转变。
长期以来,运营模式依赖于被动响应机制,这意味着团队需要全天候待命。工具蔓延、人才短缺和职业倦怠所引发的运营危机,已使这种模式难以为继。自主IT或许正是解决之道。
尽管热情显而易见,但我们近期调查的IT专业人员中,仅有5%表示AI目前是其运营的核心。面对AI雄心与实际落地之间的巨大差距,未来几年究竟需要什么,才能真正构建起面向自主运营的基础设施?
不仅仅是技术问题
从AI辅助工作流迈向自主运营,所需的不仅是复杂的模型,更依赖于对整个IT环境中运营数据的统一可视性和可靠访问能力。毕竟,自主系统无法管理它看不见的东西。
很多时候,挑战并不在于数据不足。企业已经在使用复杂的可观测性技术栈来监控告警、遥测数据、日志和性能信号。问题在于,这些系统往往各自孤立运行。当运营上下文碎片化时,决策往往在视野不完整的情况下做出。而自主化反而可能放大这些盲区。
数据标准与集成,已成为自主化转型进程中的关键环节。它们为智能体提供了跨系统解读和关联数据的结构基础,从而支撑更为自主的工作流。Anthropic的开源模型上下文协议(MCP)有助于标准化AI连接跨应用、开发工具和工作流中分散数据的方式。通过让系统以统一接口暴露相关数据或操作,MCP帮助IT从孤立的智能体工作流迈向建立在更完整环境理解之上的自主运营。
各组织正在这些进展的基础上构建AI基础设施,使其远超简单的"if-then"指令,演进为能够独立理解并修复问题的智能体。然而,连通性只是就绪状态的一个方面。数据仍需准确、一致且实时,才能支撑可靠的决策。
夯实数据基础
以下是IT领导者在将智能体扩展至运营工作流之前,需要逐一核查的清单。
保持资产清单的实时更新
利用自动化发现机制,在整个IT环境中维护对设备、应用、云资源、身份和配置的准确视图。
规范智能体所依赖的数据
统一格式与字段,包括日期时间戳、资产ID和遥测属性,同时消除重复项和不一致性。
统一跨系统的元数据
以规范字段、受控词汇表和一致的层级标签结构取代自由格式标注,确保智能体能够跨系统可靠地解读上下文。
持续验证数据质量
标记过期记录、缺失字段、冲突来源、分类不一致以及潜在的人工录入错误,以保持运营数据的时效性、完整性和可用性。
消除数据孤岛,不仅仅是为了改善访问,更是为了构建一个单一、连贯的事实来源,让智能体能够可靠地基于其进行推理。
低风险、高价值的任务切入点
自主IT基础设施的成功,还取决于IT领导者能否务实且理性地评估投资回报率与人工介入需求。这意味着需要判断哪些自动化场景能带来可衡量的价值,哪些只是徒增成本与复杂性,却对结果改善毫无裨益。
在雄心与纪律之间取得平衡。这首先要识别那些重复性强、流程成熟的任务,在这些任务上,自动化可以创造清晰价值,且不会引入不必要的风险。典型示例如下:
终端修复
AI可以分析工单、设备健康状况、应用日志、策略变更和已知事件,识别可能的根因,并执行已批准的修复步骤,例如清除缓存、修复配置或重新应用设备策略。
网络异常响应
智能体可以关联网络告警、拓扑数据和设备信息,确定异常来源并评估受影响资产。随后可执行预设的隔离措施,例如禁用非关键访问端口,或在业务影响不确定或操作高风险时将问题上报人工审批。
常规凭证生命周期管理
凭证轮换或证书续期等任务遵循确定性步骤,是自动化的理想早期场景。AI还可以通过检测异常凭证使用行为,识别出正常轮换或续期周期之外可能需要采取行动的情况,从而进一步发挥价值。
IT领导者必须对闭环系统以及大规模部署智能体带来的累积成本保持清醒认识。智能体工具目前已能处理简单工单和请求,但对于更高风险的IT问题和决策,仍需要人类的判断介入。近期亚马逊云服务旗下Claude编程工具发生的服务中断事件,再次印证了这一必要性。亚马逊的应对措施是对生产访问引入强制性同行评审机制,进一步强调了保持人工介入的重要价值。
Q&A
Q1:为什么目前只有5%的IT专业人员将AI作为运营核心?
A:根据文章调查数据,尽管业界对AI的热情很高,但实际落地比例极低。主要原因在于从AI辅助工作流迈向真正自主运营,不仅需要复杂的模型,还需要统一的数据可视性、跨系统的数据标准与集成,以及准确、一致且实时的数据基础。目前许多企业的可观测性系统仍处于孤立状态,运营数据碎片化,导致自主化难以真正落地。
Q2:模型上下文协议(MCP)在IT自主运营中起到什么作用?
A:MCP是由Anthropic推出的开源协议,旨在标准化AI连接跨应用、开发工具和工作流中分散数据的方式。通过让各系统以统一接口暴露相关数据或操作,MCP帮助IT团队从孤立的智能体工作流迈向建立在更完整环境理解基础上的自主运营,是推动自主化转型的重要基础设施之一。
Q3:IT自主运营中哪些任务适合优先自动化?
A:文章建议优先选择重复性强、流程成熟且风险较低的任务。具体包括:终端修复(如清除缓存、修复配置)、网络异常响应(如隔离非关键端口或上报高风险操作)以及凭证轮换和证书续期等常规生命周期管理任务。这些场景流程确定性高,智能体可以创造清晰价值,同时不会引入过多不可控风险。
好文章,需要你的鼓励
SAP首席执行官Christian Klein在2026年Sapphire大会上坦承,公司约在八九个月前调整了AI战略方向,从强调AI技术本身转向聚焦业务成果,目标是实现"自主企业"愿景。SAP发布了全新品牌SAP Business AI和SAP Autonomous Suite,重构AI平台以更好融入客户业务上下文。SAP高管还强调,需防范"智能体失控"风险,并引入"企业记忆"概念提升AI决策的精准度。
研究揭示多源视觉融合并非总有益,提出MARS框架通过单源锚点量化信息增益,动态调节多源融合优势,在多个视觉推理任务上实现显著性能提升。
英国卫生与社会保障部发布测算数据,显示NHS数字化单一患者记录(SPR)每年可减少约2万次急诊就诊,并节省约2000万英镑。该计划将强制要求全科医生和医院共享患者数据,形成统一的健康档案,患者可通过NHS App访问。该措施是政府100亿英镑医疗数字化计划的核心。此外,NHS虚拟医院NHS Online已正式成立,预计2027年上线,首三年可提供约850万次诊疗服务。
MiniMax发布M2系列混合专家大模型,总参数2299亿但每次仅激活98亿,通过专项数据流水线、Forge强化学习系统和自进化机制,在代理编程、深度搜索等任务上达到顶级闭源模型水平。