大数据可观测性初创公司Monte Carlo Data推出了新的智能体可观测性产品,为人工智能领域提供全面的数据和AI可观测性解决方案。
该公司表示,这款新工具将帮助团队更容易地检测、分类和修复生产环境中AI应用程序的可靠性问题,防止代价高昂的"幻觉"现象,避免客户信任度下降和系统停机。
Monte Carlo以其热门的数据可观测性平台而闻名,企业使用该平台来监控数据资产的"质量"。该平台基于与Datadog和AppDynamics等应用可观测性工具相同的原理,但应用于数据管道而非应用指标。它通过机器学习算法理解客户数据流的正常行为,当出现异常时发出警告。
通过智能体可观测性,Monte Carlo将相同的能力引入AI技术栈,确保代表用户执行操作的AI应用程序和智能体始终准确可靠。这建立在5月份推出的非结构化数据监控能力基础上,将可观测性套件扩展到日志、Word文档、PDF文档和PowerPoint等内容。
公司表示需要更全面的AI可观测性解决方案,因为现有产品虽然能发现AI数据输入或输出的可靠性问题,但无法同时检测两者。而智能体可观测性涵盖数据摄取、转换、信息检索和响应,确保输入和输出都准确无误。
新产品利用大语言模型评判技术来检测低质量的AI输出,以及性能问题和故障。大语言模型评判是指使用训练有素的大语言模型来评估其他AI系统的输出,根据质量、与初始提示的相关性和准确性进行评估。这种方法比传统的人工评估更具可扩展性,能跟上当今AI使用的步伐。
Monte Carlo表示整个过程是自动化的,但仍需要大量人工参与。用户可以设置自定义提示来教授大语言模型评判器什么是"正确"的AI输出,基于多样化的质量标准。一旦响应偏离标准,用户就会立即收到警报。
智能体可观测性还集成了一套"低代码评估监控器",用于监控影响AI模型性能的最常见问题。这有助于检测"漂移"现象,即AI系统响应逐渐演变并变得不太相关或有用,这是由于它们通过记住与用户的早期交互来学习经验。如果AI模型的响应开始失去清晰度、可读性降低或出现其他错误,系统会在错误变得过于明显之前标记出来,让操作员能够及时干预并修复潜在问题。
该系统还涉及大量遥测数据,让团队能够调查AI模型或智能体中出现的问题并了解根本原因。它跟踪包括用户查询和提示、完成情况、延迟和错误在内的信号,提供每个模型性能的实时视图。这些遥测数据存储在客户现有的数据环境中,任何问题都能轻松追溯到有问题的底层数据。
Monte Carlo认为,其智能体可观测性套件正是超过80%已在某种程度上采用AI智能体的组织所需要的。尽管AI智能体极受欢迎,但很少有公司有办法跟踪和维护其可靠性。这是Gartner报告显示30%的AI项目最终被放弃的原因之一。
联合创始人兼首席执行官Barr Moses表示,可靠性不仅仅是企业想要拥有的东西,而是构建可扩展、可采用的AI产品以产生真正商业价值的绝对关键。这解释了她对跨越输入和输出的统一AI可观测性平台的愿景。
"当AI智能体失败时,后果可能是巨大而持久的,包括昂贵耗时工作的低采用率、客户信任度下降以及对企业底线的巨大冲击,"她说。"解决孤立问题的点解决方案已经不够了。我们的客户需要统一的方法来确保他们的AI智能体按预期运行。"
星座研究公司的分析师Holger Mueller表示,看到AI正在改变可观测性并不令人意外,就像它影响了软件行业的大多数其他领域一样。"Monte Carlo在同时监控输入和AI输出方面有独特的机会,"这位分析师说。"问题是,谁来监控监控AI的AI——是AI供应商还是Monte Carlo本身?毫无疑问,双方都会为自己应该承担这项工作提出有力论据,但也许两者都发挥作用会更好。"
Q&A
Q1:Monte Carlo的智能体可观测性工具有什么特殊功能?
A:Monte Carlo的智能体可观测性工具能够同时监控AI应用的输入和输出,这是现有产品无法做到的。它利用大语言模型评判技术检测低质量AI输出,集成低代码评估监控器检测常见性能问题,还提供实时遥测数据追踪用户查询、完成情况、延迟和错误等信号。
Q2:什么是AI漂移现象,如何检测?
A:AI漂移是指AI系统响应逐渐演变并变得不太相关或有用的现象,通常因为AI通过记住与用户的早期交互来学习经验导致。Monte Carlo的系统通过低代码评估监控器来检测这种漂移,当AI模型响应失去清晰度、可读性降低或出现其他错误时,会在问题变得严重之前发出警报。
Q3:为什么企业需要AI可观测性解决方案?
A:根据Gartner报告,30%的AI项目最终被放弃,主要原因是缺乏可靠性保障。超过80%的组织已采用AI智能体,但很少有公司能跟踪和维护其可靠性。当AI智能体失败时,会导致客户信任度下降、高昂的时间成本以及对企业底线的巨大冲击,因此需要统一的可观测性方法。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。