随着AI驱动代码生成工具的爆发式增长,运维和安全领域也出现了强烈的AI驱动响应,这并不令人意外。按照定义,SRE和安全专业人员的核心职能就是跟上变化的步伐,快速响应以维护在线系统的可靠性和安全性。
这引出了我们要讨论的话题:AI SRE的崛起。目前有三十多家软件供应商要么提供AI SRE智能体,要么是完整的AI SRE平台。很明显,虽然这个术语确实存在误称和局限性(正如所有类别都有的那样),但它在2025年已经成为一个热门术语,就像"可观测性"在2017年一样。
为了帮助区分优劣,我召集了运维领域最重要的思想领袖举行圆桌讨论。小组成员包括Gremlin的首席执行官兼创始人Kolton Andrus、Mezmo的首席执行官Tucker Callaway以及Causely的创始人Shmuel Kliger。
AI提升运维效率的共识
与会者一致认为AI能够有效提升运维效率。Shmuel Kliger指出,AI几十年来一直在这样做,"AI SRE"只是AI驱动运维最新趋势的最新术语。
Kolton Andrus强调,鉴于AI无法对高级战略决策承担责任,人类在可预见的未来必然要保持参与。虽然更好地预测故障和减轻一些手动工作的能力对行业来说是积极的,但对于在2025年过度依赖AI炒作的公司来说,新的一年将面临后遗症。
Tucker Callaway强调,虽然AI分析数据的速度比传统方法更快,但在企业规模下成本开始激增,准确性开始下降。根据Callaway的说法,解决这个问题的最佳方法是通过在智能体消费数据之前预处理数据来改进上下文工程,以最大化效率。
挑战与机遇并存
这里有一个明显的呼应关系,新的AI解决方案被构建来跟上其他解决方案的步伐,而导航什么是真正有用的将是大多数组织在2026年面临的重大挑战。还存在技能差距,因为SRE需要不断更新技能以有效利用AI。
Andrus建议组织投资培训和发展项目,为团队配备与AI工具协同工作的必要专业知识。Callaway补充说,在AI环境中,开发和运维团队之间的协作变得更加重要,因为双方都需要了解如何将AI解决方案无缝集成到现有工作流程中。
展望未来,随着AI SRE工具的不断成熟,它们将变得更加直观和用户友好,从而在各个团队和部门实现更广泛的采用。SRE功能的越来越多部分在未来几年变得自动化似乎是不可避免的。虽然好处可能相当可观,但采取谨慎的方法对于应对这些技术进步带来的挑战至关重要。
通过培养持续学习、协作和道德行为的文化,组织可以在追求运维卓越的过程中充分发挥AI SRE的潜力。
Q&A
Q1:什么是AI SRE?
A:AI SRE是指利用人工智能技术来增强网站可靠性工程的新兴概念。目前有三十多家软件供应商提供AI SRE智能体或完整的AI SRE平台,这个术语在2025年已经成为热门术语,类似于"可观测性"在2017年的地位。
Q2:AI SRE能完全替代人工运维吗?
A:不能完全替代。专家强调,由于AI无法对高级战略决策承担责任,人类在可预见的未来必然要保持参与。AI主要用于提升运维效率、更好地预测故障和减轻手动工作,但重要决策仍需要人工参与。
Q3:企业采用AI SRE面临哪些挑战?
A:主要挑战包括在企业规模下成本激增、准确性下降的问题,以及SRE人员需要不断更新技能来有效利用AI工具。此外,开发和运维团队之间需要加强协作,了解如何将AI解决方案无缝集成到现有工作流程中。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。