AI智能体解决系统故障问题的新突破

NeuBird公司推出的AI驱动产品Hawkeye正在改变传统的系统故障处理模式。该产品采用智能代理系统，能够在工程师到达现场前自动进行故障调查，形成假设并通过遥测数据验证。与传统聊天机器人不同，Hawkeye使用多个专业化LLM模型协同工作，通过结构化调查程序而非自然语言响应来诊断问题。系统支持AWS等云服务，具备只读访问权限，可将故障恢复时间缩短90%以上。

凌晨2点，手机突然响起。网站宕机了，Slack上满屏红色警报，客户已经开始在社交媒体上抱怨。你睡眼惺忪地盯着屏幕，不知道从哪里开始排查问题。

这是网站可靠性工程师（SRE）们都太熟悉的场景。他们必须不惜一切代价保持在线服务正常运行，而当服务中断时，压力水平飙升。恢复是一场与时间的赛跑，但大多数团队在开始实际故障排除之前，仅收集证据就要消耗第一个小时。

NeuBird公司首席执行官兼联合创始人Goutham Rao说："前五分钟是恐慌，接下来25分钟是召集团队确认我们遇到了代理错误。在Slack上联系，打电话会议，呼叫相关人员。"作战室启动，电话会议召开，各团队互相推责，而故障时钟仍在滴答作响。

Rao深知这种痛苦。这位连续创业者曾经不得不从旧金山飞到阿姆斯特丹，在黑暗的数据中心修复自己的bug，因为客户不允许远程访问。宕机时间基本等于飞行时间。他决定必须找到更好的解决方案，于是NeuBird诞生了。

这家获得微软支持并与AWS合作的初创公司正在让整个流程变得不再必要。其产品Hawkeye是一个AI驱动的SRE系统，能在你的团队还在揉眼睛的时候就开始运行调查。Rao强调，这不是另一个用于查询日志的聊天机器人，而是一个智能体系统，能够形成假设，根据你的遥测数据进行测试，并告诉你究竟哪里出了问题。

云运维为何遇到瓶颈

Rao表示，SRE自动化早就该出现了。使现代软件成为可能的架构，也是让调试变得如此令人抓狂的原因。面向服务的架构在过去二十年中成为行业标准，因为它们让团队能够更快地构建应用。然而，它们也创造了一个很少有人完全理解的相互依赖关系的复杂网络。这些是复杂系统，在一个系统中牵一发而动全身，可能影响到千里之外的另一个系统。

Rao描述了这样一个场景：你的网站超时了。直觉上，这看起来像是UI或Web应用层的问题。你会认为前端出了什么问题。但真正的问题原来是三层之下的数据库资源耗尽。

"你网站运行缓慢的根本原因与你的Web应用或计算无关，而是因为你的容量不足，"他解释道。"谁会想到这一点？人们需要很长时间才能将这些点连接起来。"

本来用于帮助的工具却创造了它们自己的问题。AWS环境现在在数千个资源上生成数百万个遥测数据点。你可以监控一切，但更多的可见性往往意味着更少的清晰度。这个问题通常被称为可观测性悖论。

根据AWS的数据，70%的警报需要跨多个服务进行手动关联。工程师通常花费三到四个小时调查复杂事件，这还是在任何人开始修复之前。

Rao很快指出，这不是要取代人员。"这不是用更少的人做同样的事，"他说。"在任何创新周期中从来都不是这样。总是用现有的资源做更多的事。"

智能体AI的不同之处

AIOps市场挤满了在日志查询上加聊天机器人界面就称之为创新的工具。Hawkeye在做结构上不同的事情，如果你要信任它处理生产环境，这种区别很重要。

大多数企业AI产品使用检索增强生成（RAG）。你将文档输入大语言模型，对其进行向量化，然后询问有关该内容的问题。这种方法对于企业知识库和政策文档工作得很好，但如果你试图将其用于IT遥测，它就会崩溃。

"你不能将所有IT遥测数据复制到ChatGPT中并说'帮助我'，"Rao解释道。"那行不通。"数据是日志、跟踪、配置数据和以毫秒粒度捕获的时间序列指标的不断变化的混乱。你不能将所有这些转储到提示窗口中并期望有用的结果。

智能体系统翻转了这种方法。不是将内容提供给大语言模型并提出问题，而是告诉大语言模型找出它实际需要什么信息，然后从你的数据源中精确提取。大语言模型生成调查程序而不是散文答案。

这就是为什么上下文工程变得比提示工程更重要。Rao使用医学类比来解释区别：即使是世界上最好的医生，如果你不能正确描述症状，也无法准确诊断你。

"大语言模型的问题是你可以问它一个问题，它总是会给你一个答案，"他说。"这对生产系统来说是个问题，因为你不想误导人。"给大语言模型错误的上下文，它会自信地解决错误的问题。技巧是确保它在开始推理之前向正确的数据源提出正确的问题。

学习并编写自己指令的系统

Hawkeye底层是NeuBird称为Raven AI表达语言（RAEL）的东西。这是一种结构化语法，让大语言模型创建可验证的调查程序而不是自然语言响应。这些程序可以被验证和编译，这消除了调查步骤本身的幻觉。

"对我们来说，智能体系统是专家系统与生成式AI中存在的认知能力的结合，"Rao解释道。该系统将专家系统的可靠性与生成式AI的创造性结合起来。这使它足够结构化以值得信赖，但足够灵活以处理新情况。

编纂调查技术的能力使工程师能够随时间塑造调查运行方式。用简单的英语告诉Hawkeye下次更多关注网络，底层的RAEL语法（大语言模型本身创建的）会相应地变形。你在指导一个认知系统，而不是配置一个静态规则引擎。

一个客户发现了这种能力，当时Hawkeye无法解释DNS请求的突然下降。根本原因是Hawkeye无法看到的外部Cloudflare故障。客户通过在未来调查中添加Cloudflare状态检查来回应。系统学会了。

大语言模型军团

Hawkeye也不在单一大语言模型上运行。NeuBird使用Rao称之为模型中队的东西。有些更适合时间序列分析，其他的更适合解析JSON结构。当前的组合包括Anthropic的Claude和各种GPT模型，尽管架构设计为随着市场发展交换它们。企业也可以带来自己的Bedrock模型，在使用Hawkeye调查框架的同时消耗承诺的云支出。

该平台原生连接到AWS服务，包括CloudWatch、EKS、Lambda、RDS和S3，尽管它也适用于Azure和本地环境。标准可观测性堆栈如Dynatrace、Splunk和Prometheus开箱即用。对于运行自制工具的组织，模型上下文协议（MCP）提供了到专有系统的桥梁。

安全性将是潜在用户的一大关注点。Hawkeye以只读访问权限运行，不存储遥测数据。它只持久化一些指纹识别你环境的元数据，比如你有多少EC2实例或存在什么Kubernetes集群。对于需要额外隔离的组织，有完整的虚拟私有云（VPC）选项。所有处理都在该VPC内发生，数据永远不会离开他们的AWS环境。

保持控制权

Hawkeye止于建议。它不会自动执行修复，这是故意的。"我们故意限制它采取行动，"Rao解释道，认为智能体系统有点像自动驾驶汽车，对许多人来说是一个很酷的概念，但对大多数人来说仍然太新，无法完全放手。也就是说，对于愿意自动化重复操作的客户，NeuBird提供了这样的自动化选项。

真正良性的操作，如切换功能标志，是可以的。在那个例子中，标志本身已经被测试过，后果是完全理解的。但编写代码或修补Helm图表？还不行。

担心是95%的成功率加上壮观的5%失败可能会完全毒害智能体系统的井水。现在最好让人类参与其中，逐渐建立信任。

当Hawkeye无法解决问题时，它会说出来。系统根据实际遥测数据对其结论进行事实检查，所以最坏的情况是承认不确定性，而不是自信地指向错误方向。它还有一个有趣的幕后功能来帮助完善其结果：它使用竞争的大语言模型就其发现相互争论。这种辩证法导致经过理智检查的更好结果。

Hawkeye的仪表板生成显示每次调查节省的估计时间的报告。Model Rocket，一个运行跨Lambda、RDS、ElastiCache和EKS复杂环境的定制技术解决方案提供商，在部署平台后将平均恢复时间缩短了90%以上。

认知转变

NeuBird处于令人羡慕的位置。微软是支持者，该公司参与雷德蒙德的精英Pegasus项目，该项目提供对包括Adobe、Autodesk和雪佛龙在内的企业客户的访问。在AWS方面，NeuBird被选入众多AWS项目，包括生成式AI加速器和生成式AI能力合作伙伴地位，Hawkeye在AWS市场上可用。

让它到达那里的部分原因是它理解智能体AI不是你配置一次就忘记的软件。"你必须像对待认知存在、认知系统一样对待它，因为那是它的根源，"Rao说。"指导它，与它合作，给它反馈，让它协作。它不是一个二元系统。"

SRE的凌晨2点电话不会消失。基础设施总是会在不方便的时间以创造性的方式出现故障。但如果NeuBird的赌注成功，当你带着拖鞋和咖啡到达办公桌时，Hawkeye将已经在提供根本原因分析的路上了。

Q&A

Q1：Hawkeye是什么？它能解决什么问题？

A：Hawkeye是NeuBird公司开发的AI驱动的SRE系统，专门用于自动化系统故障调查。它能在工程师还没反应过来时就开始分析问题，形成假设并根据遥测数据进行测试，快速找出系统故障的根本原因。与传统的聊天机器人不同，它是一个智能体系统，能够主动调查而不只是被动回答问题。

Q2：智能体AI与传统AIOps工具有什么区别？

A：传统AIOps工具大多使用检索增强生成（RAG），将文档输入大语言模型后询问问题。但智能体AI系统翻转了这种方法，让大语言模型自己判断需要什么信息，然后精确提取相关数据。它生成调查程序而非散文答案，并使用结构化的RAEL语法确保结果可验证，避免了幻觉问题。

Q3：使用Hawkeye是否安全？会不会自动执行危险操作？

A：Hawkeye的设计非常注重安全性。它只有只读访问权限，不存储遥测数据，仅保留环境指纹等元数据。系统故意被限制不能自动执行修复操作，只提供建议，需要人工确认。对于需要更高隔离级别的组织，还提供完整的VPC部署选项，确保数据不离开客户的AWS环境。

来源：The Register

0赞

好文章，需要你的鼓励

AI智能体解决系统故障问题的新突破

来源：The Register

2026

01/27

13:53

分享

点赞

苹果在印度恢复银行卡支付功能，距暂停已逾四年

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

CIO聚焦AI整合，2026年设备端AI等新工具或增复杂性

微软发布Maia 200芯片，挑战亚马逊和谷歌在AI领域的地位

Claude现在与Canva和Slack等应用提供更深度集成

英伟达20亿美元投资CoreWeave助其扩建5GW AI计算中心

微软发布Maia 200芯片，专为AI推理优化设计

Anthropic推出Claude互动应用功能，整合多种办公工具

IT团队在AI时代生存必备的8个紧急更新指南

利用Gemini 20个病毒式提示找到最便宜机票的实测结果

Formula E携手谷歌云AI实现碳中和目标

Expereo：AI浪潮下的企业连接与"生活速度的可视性"

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: