凌晨2点,手机突然响起。网站宕机了,Slack上满屏红色警报,客户已经开始在社交媒体上抱怨。你睡眼惺忪地盯着屏幕,不知道从哪里开始排查问题。
这是网站可靠性工程师(SRE)们都太熟悉的场景。他们必须不惜一切代价保持在线服务正常运行,而当服务中断时,压力水平飙升。恢复是一场与时间的赛跑,但大多数团队在开始实际故障排除之前,仅收集证据就要消耗第一个小时。
NeuBird公司首席执行官兼联合创始人Goutham Rao说:"前五分钟是恐慌,接下来25分钟是召集团队确认我们遇到了代理错误。在Slack上联系,打电话会议,呼叫相关人员。"作战室启动,电话会议召开,各团队互相推责,而故障时钟仍在滴答作响。
Rao深知这种痛苦。这位连续创业者曾经不得不从旧金山飞到阿姆斯特丹,在黑暗的数据中心修复自己的bug,因为客户不允许远程访问。宕机时间基本等于飞行时间。他决定必须找到更好的解决方案,于是NeuBird诞生了。
这家获得微软支持并与AWS合作的初创公司正在让整个流程变得不再必要。其产品Hawkeye是一个AI驱动的SRE系统,能在你的团队还在揉眼睛的时候就开始运行调查。Rao强调,这不是另一个用于查询日志的聊天机器人,而是一个智能体系统,能够形成假设,根据你的遥测数据进行测试,并告诉你究竟哪里出了问题。
云运维为何遇到瓶颈
Rao表示,SRE自动化早就该出现了。使现代软件成为可能的架构,也是让调试变得如此令人抓狂的原因。面向服务的架构在过去二十年中成为行业标准,因为它们让团队能够更快地构建应用。然而,它们也创造了一个很少有人完全理解的相互依赖关系的复杂网络。这些是复杂系统,在一个系统中牵一发而动全身,可能影响到千里之外的另一个系统。
Rao描述了这样一个场景:你的网站超时了。直觉上,这看起来像是UI或Web应用层的问题。你会认为前端出了什么问题。但真正的问题原来是三层之下的数据库资源耗尽。
"你网站运行缓慢的根本原因与你的Web应用或计算无关,而是因为你的容量不足,"他解释道。"谁会想到这一点?人们需要很长时间才能将这些点连接起来。"
本来用于帮助的工具却创造了它们自己的问题。AWS环境现在在数千个资源上生成数百万个遥测数据点。你可以监控一切,但更多的可见性往往意味着更少的清晰度。这个问题通常被称为可观测性悖论。
根据AWS的数据,70%的警报需要跨多个服务进行手动关联。工程师通常花费三到四个小时调查复杂事件,这还是在任何人开始修复之前。
Rao很快指出,这不是要取代人员。"这不是用更少的人做同样的事,"他说。"在任何创新周期中从来都不是这样。总是用现有的资源做更多的事。"
智能体AI的不同之处
AIOps市场挤满了在日志查询上加聊天机器人界面就称之为创新的工具。Hawkeye在做结构上不同的事情,如果你要信任它处理生产环境,这种区别很重要。
大多数企业AI产品使用检索增强生成(RAG)。你将文档输入大语言模型,对其进行向量化,然后询问有关该内容的问题。这种方法对于企业知识库和政策文档工作得很好,但如果你试图将其用于IT遥测,它就会崩溃。
"你不能将所有IT遥测数据复制到ChatGPT中并说'帮助我',"Rao解释道。"那行不通。"数据是日志、跟踪、配置数据和以毫秒粒度捕获的时间序列指标的不断变化的混乱。你不能将所有这些转储到提示窗口中并期望有用的结果。
智能体系统翻转了这种方法。不是将内容提供给大语言模型并提出问题,而是告诉大语言模型找出它实际需要什么信息,然后从你的数据源中精确提取。大语言模型生成调查程序而不是散文答案。
这就是为什么上下文工程变得比提示工程更重要。Rao使用医学类比来解释区别:即使是世界上最好的医生,如果你不能正确描述症状,也无法准确诊断你。
"大语言模型的问题是你可以问它一个问题,它总是会给你一个答案,"他说。"这对生产系统来说是个问题,因为你不想误导人。"给大语言模型错误的上下文,它会自信地解决错误的问题。技巧是确保它在开始推理之前向正确的数据源提出正确的问题。
学习并编写自己指令的系统
Hawkeye底层是NeuBird称为Raven AI表达语言(RAEL)的东西。这是一种结构化语法,让大语言模型创建可验证的调查程序而不是自然语言响应。这些程序可以被验证和编译,这消除了调查步骤本身的幻觉。
"对我们来说,智能体系统是专家系统与生成式AI中存在的认知能力的结合,"Rao解释道。该系统将专家系统的可靠性与生成式AI的创造性结合起来。这使它足够结构化以值得信赖,但足够灵活以处理新情况。
编纂调查技术的能力使工程师能够随时间塑造调查运行方式。用简单的英语告诉Hawkeye下次更多关注网络,底层的RAEL语法(大语言模型本身创建的)会相应地变形。你在指导一个认知系统,而不是配置一个静态规则引擎。
一个客户发现了这种能力,当时Hawkeye无法解释DNS请求的突然下降。根本原因是Hawkeye无法看到的外部Cloudflare故障。客户通过在未来调查中添加Cloudflare状态检查来回应。系统学会了。
大语言模型军团
Hawkeye也不在单一大语言模型上运行。NeuBird使用Rao称之为模型中队的东西。有些更适合时间序列分析,其他的更适合解析JSON结构。当前的组合包括Anthropic的Claude和各种GPT模型,尽管架构设计为随着市场发展交换它们。企业也可以带来自己的Bedrock模型,在使用Hawkeye调查框架的同时消耗承诺的云支出。
该平台原生连接到AWS服务,包括CloudWatch、EKS、Lambda、RDS和S3,尽管它也适用于Azure和本地环境。标准可观测性堆栈如Dynatrace、Splunk和Prometheus开箱即用。对于运行自制工具的组织,模型上下文协议(MCP)提供了到专有系统的桥梁。
安全性将是潜在用户的一大关注点。Hawkeye以只读访问权限运行,不存储遥测数据。它只持久化一些指纹识别你环境的元数据,比如你有多少EC2实例或存在什么Kubernetes集群。对于需要额外隔离的组织,有完整的虚拟私有云(VPC)选项。所有处理都在该VPC内发生,数据永远不会离开他们的AWS环境。
保持控制权
Hawkeye止于建议。它不会自动执行修复,这是故意的。"我们故意限制它采取行动,"Rao解释道,认为智能体系统有点像自动驾驶汽车,对许多人来说是一个很酷的概念,但对大多数人来说仍然太新,无法完全放手。也就是说,对于愿意自动化重复操作的客户,NeuBird提供了这样的自动化选项。
真正良性的操作,如切换功能标志,是可以的。在那个例子中,标志本身已经被测试过,后果是完全理解的。但编写代码或修补Helm图表?还不行。
担心是95%的成功率加上壮观的5%失败可能会完全毒害智能体系统的井水。现在最好让人类参与其中,逐渐建立信任。
当Hawkeye无法解决问题时,它会说出来。系统根据实际遥测数据对其结论进行事实检查,所以最坏的情况是承认不确定性,而不是自信地指向错误方向。它还有一个有趣的幕后功能来帮助完善其结果:它使用竞争的大语言模型就其发现相互争论。这种辩证法导致经过理智检查的更好结果。
Hawkeye的仪表板生成显示每次调查节省的估计时间的报告。Model Rocket,一个运行跨Lambda、RDS、ElastiCache和EKS复杂环境的定制技术解决方案提供商,在部署平台后将平均恢复时间缩短了90%以上。
认知转变
NeuBird处于令人羡慕的位置。微软是支持者,该公司参与雷德蒙德的精英Pegasus项目,该项目提供对包括Adobe、Autodesk和雪佛龙在内的企业客户的访问。在AWS方面,NeuBird被选入众多AWS项目,包括生成式AI加速器和生成式AI能力合作伙伴地位,Hawkeye在AWS市场上可用。
让它到达那里的部分原因是它理解智能体AI不是你配置一次就忘记的软件。"你必须像对待认知存在、认知系统一样对待它,因为那是它的根源,"Rao说。"指导它,与它合作,给它反馈,让它协作。它不是一个二元系统。"
SRE的凌晨2点电话不会消失。基础设施总是会在不方便的时间以创造性的方式出现故障。但如果NeuBird的赌注成功,当你带着拖鞋和咖啡到达办公桌时,Hawkeye将已经在提供根本原因分析的路上了。
Q&A
Q1:Hawkeye是什么?它能解决什么问题?
A:Hawkeye是NeuBird公司开发的AI驱动的SRE系统,专门用于自动化系统故障调查。它能在工程师还没反应过来时就开始分析问题,形成假设并根据遥测数据进行测试,快速找出系统故障的根本原因。与传统的聊天机器人不同,它是一个智能体系统,能够主动调查而不只是被动回答问题。
Q2:智能体AI与传统AIOps工具有什么区别?
A:传统AIOps工具大多使用检索增强生成(RAG),将文档输入大语言模型后询问问题。但智能体AI系统翻转了这种方法,让大语言模型自己判断需要什么信息,然后精确提取相关数据。它生成调查程序而非散文答案,并使用结构化的RAEL语法确保结果可验证,避免了幻觉问题。
Q3:使用Hawkeye是否安全?会不会自动执行危险操作?
A:Hawkeye的设计非常注重安全性。它只有只读访问权限,不存储遥测数据,仅保留环境指纹等元数据。系统故意被限制不能自动执行修复操作,只提供建议,需要人工确认。对于需要更高隔离级别的组织,还提供完整的VPC部署选项,确保数据不离开客户的AWS环境。
好文章,需要你的鼓励
无人机食品配送服务商Flytrex与全球知名披萨连锁品牌Little Caesars宣布合作,推出全新Sky2无人机,最大载重达4公斤,可一次配送两个大披萨及饮料,满足全家用餐需求。Sky2支持最远6.4公里的配送范围,平均从起飞到送达仅需4.5分钟。首个试点门店已在德克萨斯州怀利市上线,并实现与Little Caesars订单系统的直接集成。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
法国社会住房项目ViliaSprint?已正式完工,成为欧洲最大的3D打印多户住宅建筑,共12套公寓,建筑面积800平方米。项目由PERI 3D Construction使用COBOD BOD2打印机完成,整体工期较传统建造缩短3个月,实际打印仅用34天(原计划50天),现场操作人员从6人减至3人,建筑废料率从10%降至5%。建筑采用可打印混凝土,集成光伏板及热泵系统,能源自给率约达60%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。