随着AI智能体的能力不断增强,智能体AI治理的重要性与日俱增。然而,现有的治理方案在防止AI智能体"脱轨"方面仍面临重重挑战。
在本系列的上一篇文章中,笔者探讨了当前让智能体保持正轨的前沿方法:采用多样化的对抗性验证器,构建多层验证机制。其核心思路是,在不限制智能体能力的前提下,部署多个独立的验证器智能体,对每个智能体的行为进行评估并排查问题。只有当足够数量的验证器一致认定智能体运行正常时,才允许其继续执行任务。
然而在实际应用中,这一智能体AI治理方案大多仍停留在规划阶段,只有少数供应商正在以不同成熟度推进验证器的落地。通过对多家供应商的访谈,一个共同的瓶颈浮出水面:利用验证器来治理智能体编排流程,往往速度太慢、成本太高,难以满足现代自动化的需求。因此,当前以验证器为核心的治理方案,正在积极探索如何突破延迟与Token消耗的瓶颈。
以下是目前正在应对这一挑战的部分代表性供应商。
评估工程:如何构建验证器
能够评估其他智能体行为和性能的智能体,本质上是在执行"评估"任务。行业将构建这类智能体的实践称为"评估工程"(Eval Engineering)。
评估工程是一个比智能体AI治理更宽泛的领域,但两者紧密相关。广义上,评估工程聚焦于针对大语言模型应用(尤其是智能体应用)设计、运行并将评估流程产品化。
"大语言模型作为裁判"(LLM-as-a-judge)评分技术在构建智能体AI评估系统中尤为实用,工程师可借此评估智能体(或其他AI应用)输出内容的质量、准确性和相关性。评估工程师通常将这一技术与软件测试及可观测性方法结合,构建大语言模型评估体系。
评估工程在测试中的应用
评估工程最直接的应用场景,是在AI智能体上线前进行测试。由于无需在生产环境中运行,测试阶段的评估工程可以规避性能与成本瓶颈。
评估工程师会针对包含正常输入、边界案例和对抗性输入的多种精选数据集,运行结构化的评估流水线。借助大语言模型作为裁判的评分机制,工程师可在工程过程中对准确率、任务完成度、延迟、合规性及其他关键质量指标进行量化评估。
将评估工程用于测试已相对普遍。笔者的调研发现了多家提供此类能力的供应商,包括Comet ML、Confident AI、Evidently AI、GoodEye Labs以及开源项目MLflow(隶属于Linux Foundation旗下的LF Projects系列)等,后续将专文介绍。
评估工程在决策支持中的应用
许多智能体系统的目标,是通过协调智能体的自主行为来实现自动化。然而,自动化工作流越复杂,其中某个智能体脱轨并采取不当行为的概率就越高。
笔者采访了Klover Intelligence Corp.(即Klover AI)的创始人兼首席执行官Dany Kitishian。他表示,该公司并不侧重于自动化,而是将评估工程应用于提升查询响应的准确性,使其超越单纯大语言模型所能达到的水平。
其平台会对输入数据进行处理,提取并评估其中的每个事实,在不同观点的语境下分析每个事实的准确性,最终输出基于此分析的合理回应。对于Klover而言,评估是一套分层框架,通过检验正确性和与真实世界结果的一致性,提供可量化的决策系统,而非存在潜在风险的自主智能体工作流。由于Klover使用的是精选数据集,且不参与时效性强的自动化流程,评估工程的成本与时间限制对其客户影响甚微。
评估工程在全生命周期智能体测试与治理中的应用
评估工程在生产环境中用于治理智能体工作流时,成本与时延的瓶颈最为突出,因此全生命周期智能体AI治理也是评估工程面临的最大挑战和最具潜力的方向。
没有评估工程,就无法实现多样化对抗性验证器的部署,而这正是成功治理的关键,供应商也将因此难以大规模交付有效的智能体AI治理方案。
评估工程师必须在智能体生命周期的各个阶段开展评估,持续迭代地评估单个智能体及整体工作流的准确性与目标对齐程度。评估过程须能自动发现性能漂移和其他故障,并将相关信息反馈到持续集成/持续交付(CI/CD)流程中。
笔者采访了H3 Labs Inc.(即Maxim AI)联合创始人兼首席执行官Vaibhavi "VG" Gangwar。她介绍,Maxim AI将评估工程与提示词工程、可观测性及仿真技术相结合,通过持续测试、监控和调试,帮助工程团队构建可靠的智能体系统。
Maxim AI同时整合了"离线"评估(开发阶段)与"在线"评估(生产阶段)。离线评估专注于测试智能体行为,而在线评估则以带外方式运行,为智能体行为提供置信度参考。换言之,Maxim AI在生产环境中采用基于采样的策略,以降低Token成本并避免影响智能体工作流的执行效率,将评估重心集中于高风险交互场景。
另有多家供应商同样将评估工程应用于全生命周期的智能体AI治理。Arize AI提供面向生产AI系统(包括智能体工作流)的可观测性和评估平台。Arize通过持续轻量级监控来应对生产环境中运行评估的性能挑战,仅在高风险场景下才启用大语言模型作为裁判的评估机制,与Maxim AI的做法相似。
Conscium则通过提供受控虚拟仿真环境来避免影响生产评估性能,从而识别不安全的智能体行为、目标漂移和策略违规。
Confident AI将大语言模型作为裁判的评估指标与可观测性、追踪和实时监控相结合,评估智能体行为,并将生产环境交互结果持续反馈至评估数据集。Confident AI将自身定位为"评估优先"平台,通过自动化评估、精选数据集和可重复的测试工作流,帮助工程师在完整的开发和生产生命周期内测试、监控并持续改进智能体系统。为应对生产评估的延迟和成本瓶颈,该公司将大多数评估迁移至异步可观测性流水线,并与Maxim AI类似,采用流量采样和针对性指标收集来降低计算开销。
破解评估的成本与性能瓶颈
在笔者研究的所有供应商中,在解决成本/性能瓶颈方面表现最为突出的,是Galileo Technologies Inc.(即Galileo AI)。要理解Galileo AI方案的差异化所在,首先需要了解其背后的研究与创新。
联合创始人兼首席产品官Atindriyo "Atin" Sanyal和首席营销官Jason Garoutte介绍,Galileo的故事始于"ChainPoll"。ChainPoll是一种幻觉检测方法,通过结合思维链推理与轮询机制,实现高性能的评估结果。思维链推理要求评估模型逐步解释其推理过程,而轮询则意味着系统会多次运行评估(可能采用不同模型)并对结果进行聚合。
ChainPoll由此提供了一套方法论,在治理智能体工作流的同时降低评估的成本与性能开销,并为协调多个评估器奠定了框架基础。在此基础上,Galileo AI进一步开发了专为评估场景设计的模型Luna,用于检测大语言模型输出(包括检索增强生成,即RAG支持的查询)中的幻觉问题。
ChainPoll提供了评估结果的是/否或通过/失败判定方法论,而Luna则作为专用模型,以远低于通用大语言模型的Token消耗实现了ChainPoll的价值落地。
凭借ChainPoll的方法论经验与Luna的能效优势,Galileo AI实现了专用"模型作为裁判"功能,其成本和延迟仅为采用通用大语言模型的替代方案的极小一部分。
与竞品不同,Galileo AI能够在生产环境中以100%的采样率提供智能体可观测性,无需借助异步带外评估或仅使用部分可用遥测数据的评估机制。
借助Galileo AI,评估工程师可以快速迭代评估方案,通过反馈信息对Luna进行微调,从而解决一些棘手的智能体异常行为问题,包括过度自信、讨好行为以及频繁违规等。
鉴于AI智能体天然的非确定性,任何智能体AI治理方案都无法做到完美,Galileo AI也不例外。但凭借其高效率的方法以及利用思维链评估治理工作流中智能体任务的能力,Galileo AI能够提供优化的智能体治理,让客户对即便是"最顽皮"的AI智能体也拥有清晰的可见性和有效的控制力。
Intellyx观点
尽管本文聚焦于初创公司,但谷歌、微软和IBM等大型供应商在评估工程领域同样有所创新。鉴于头部前沿模型在AI市场的主导地位,多家大语言模型厂商也已涉足评估工程领域。思科(Cisco Systems)也通过收购Galileo AI进入这一赛道,此次交易即将完成,有望将这家初创公司并入思科旗下的Splunk组织。
不过,本文最重要的启示,并非智能体AI治理领域的创新现状,而是大语言模型产品日益突出的成本与延迟挑战。这些挑战是整个行业的共性问题,且还在持续加剧。随着大语言模型能力的增强和Token消耗量的上升,企业将越来越迫切地寻求从大语言模型和AI中提取价值的高性价比路径。
换言之,在"更好、更快、更便宜"的永恒三角中,大语言模型正从"更好"的顶角向"更快、更便宜"转移,这是技术走向成熟的真实信号。
Q&A
Q1:评估工程(Eval Engineering)是什么?它在智能体AI治理中起什么作用?
A:评估工程是指设计、运行并将大语言模型应用评估流程产品化的实践,尤其针对智能体应用。在智能体AI治理中,评估工程通过构建验证器智能体来评估其他智能体的行为是否合规、准确,是实现多层验证机制的核心手段。它贯穿智能体的完整生命周期,帮助工程团队在开发和生产阶段持续发现性能漂移、违规行为等问题。
Q2:Galileo AI的ChainPoll和Luna是怎么解决评估成本和延迟问题的?
A:ChainPoll是一种幻觉检测方法,结合思维链推理和多次轮询机制,在保证评估质量的同时降低开销,并为协调多个评估器提供框架。Luna则是在ChainPoll基础上开发的专用评估模型,专门用于检测大语言模型输出中的幻觉问题,其Token消耗量远低于通用大语言模型。两者结合使Galileo AI能以极低的成本和延迟实现生产环境100%采样率的智能体可观测性,无需异步评估或采样妥协。
Q3:各家供应商是如何应对生产环境中评估工程的性能瓶颈的?
A:不同供应商采用了不同策略。Maxim AI和Arize AI采用基于采样的方式,仅对高风险交互启用大语言模型作为裁判的评估。Confident AI将大多数评估迁移至异步可观测性流水线并结合流量采样。Conscium则通过受控虚拟仿真环境来识别异常行为,避免直接影响生产性能。而Galileo AI凭借专用模型Luna,实现了100%采样率的实时评估,是目前最彻底解决该瓶颈的方案。
好文章,需要你的鼓励
今天讲的出海案例是飞荣达,这家从深圳起步的屏蔽、散热与结构件供应商,越南基地已经进入批量交付阶段。
中山大学等机构发现,多模态AI在同一道物理题因表达形式改变时推理能力明显下滑,视觉数值与物理实体的绑定是最核心瓶颈,且遮黑训练图片同样能提升测试成绩。
记者Simone Stolzoff在新书《How to Not Know》中探讨了现代生活为何让"不知道"变得更难承受。他指出,智能手机让人们习惯即时获得答案,反而削弱了对不确定性的容忍度。书中建议放慢节奏、识别生活中的"锚点",并将不确定视为可能性的起点,而非威胁。
这项由纽约大学与弗拉托恩研究所开展的研究证明,允许可学习嵌入时,Transformer只需对数维度就能存储大量事实,MLP充当通用关系选择器而非知识查找表,思维链可绕开多跳推理的容量瓶颈。