大数据可观测性初创公司Monte Carlo Data推出了新的智能体可观测性产品,为人工智能领域提供全面的数据和AI可观测性解决方案。
该公司表示,这款新工具将帮助团队更容易地检测、分类和修复生产环境中AI应用程序的可靠性问题,防止代价高昂的"幻觉"现象,避免客户信任度下降和系统停机。
Monte Carlo以其热门的数据可观测性平台而闻名,企业使用该平台来监控数据资产的"质量"。该平台基于与Datadog和AppDynamics等应用可观测性工具相同的原理,但应用于数据管道而非应用指标。它通过机器学习算法理解客户数据流的正常行为,当出现异常时发出警告。
通过智能体可观测性,Monte Carlo将相同的能力引入AI技术栈,确保代表用户执行操作的AI应用程序和智能体始终准确可靠。这建立在5月份推出的非结构化数据监控能力基础上,将可观测性套件扩展到日志、Word文档、PDF文档和PowerPoint等内容。
公司表示需要更全面的AI可观测性解决方案,因为现有产品虽然能发现AI数据输入或输出的可靠性问题,但无法同时检测两者。而智能体可观测性涵盖数据摄取、转换、信息检索和响应,确保输入和输出都准确无误。
新产品利用大语言模型评判技术来检测低质量的AI输出,以及性能问题和故障。大语言模型评判是指使用训练有素的大语言模型来评估其他AI系统的输出,根据质量、与初始提示的相关性和准确性进行评估。这种方法比传统的人工评估更具可扩展性,能跟上当今AI使用的步伐。
Monte Carlo表示整个过程是自动化的,但仍需要大量人工参与。用户可以设置自定义提示来教授大语言模型评判器什么是"正确"的AI输出,基于多样化的质量标准。一旦响应偏离标准,用户就会立即收到警报。
智能体可观测性还集成了一套"低代码评估监控器",用于监控影响AI模型性能的最常见问题。这有助于检测"漂移"现象,即AI系统响应逐渐演变并变得不太相关或有用,这是由于它们通过记住与用户的早期交互来学习经验。如果AI模型的响应开始失去清晰度、可读性降低或出现其他错误,系统会在错误变得过于明显之前标记出来,让操作员能够及时干预并修复潜在问题。
该系统还涉及大量遥测数据,让团队能够调查AI模型或智能体中出现的问题并了解根本原因。它跟踪包括用户查询和提示、完成情况、延迟和错误在内的信号,提供每个模型性能的实时视图。这些遥测数据存储在客户现有的数据环境中,任何问题都能轻松追溯到有问题的底层数据。
Monte Carlo认为,其智能体可观测性套件正是超过80%已在某种程度上采用AI智能体的组织所需要的。尽管AI智能体极受欢迎,但很少有公司有办法跟踪和维护其可靠性。这是Gartner报告显示30%的AI项目最终被放弃的原因之一。
联合创始人兼首席执行官Barr Moses表示,可靠性不仅仅是企业想要拥有的东西,而是构建可扩展、可采用的AI产品以产生真正商业价值的绝对关键。这解释了她对跨越输入和输出的统一AI可观测性平台的愿景。
"当AI智能体失败时,后果可能是巨大而持久的,包括昂贵耗时工作的低采用率、客户信任度下降以及对企业底线的巨大冲击,"她说。"解决孤立问题的点解决方案已经不够了。我们的客户需要统一的方法来确保他们的AI智能体按预期运行。"
星座研究公司的分析师Holger Mueller表示,看到AI正在改变可观测性并不令人意外,就像它影响了软件行业的大多数其他领域一样。"Monte Carlo在同时监控输入和AI输出方面有独特的机会,"这位分析师说。"问题是,谁来监控监控AI的AI——是AI供应商还是Monte Carlo本身?毫无疑问,双方都会为自己应该承担这项工作提出有力论据,但也许两者都发挥作用会更好。"
Q&A
Q1:Monte Carlo的智能体可观测性工具有什么特殊功能?
A:Monte Carlo的智能体可观测性工具能够同时监控AI应用的输入和输出,这是现有产品无法做到的。它利用大语言模型评判技术检测低质量AI输出,集成低代码评估监控器检测常见性能问题,还提供实时遥测数据追踪用户查询、完成情况、延迟和错误等信号。
Q2:什么是AI漂移现象,如何检测?
A:AI漂移是指AI系统响应逐渐演变并变得不太相关或有用的现象,通常因为AI通过记住与用户的早期交互来学习经验导致。Monte Carlo的系统通过低代码评估监控器来检测这种漂移,当AI模型响应失去清晰度、可读性降低或出现其他错误时,会在问题变得严重之前发出警报。
Q3:为什么企业需要AI可观测性解决方案?
A:根据Gartner报告,30%的AI项目最终被放弃,主要原因是缺乏可靠性保障。超过80%的组织已采用AI智能体,但很少有公司能跟踪和维护其可靠性。当AI智能体失败时,会导致客户信任度下降、高昂的时间成本以及对企业底线的巨大冲击,因此需要统一的可观测性方法。
好文章,需要你的鼓励
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
英国政府研究显示,神经多样性员工从AI聊天机器人中获得的收益远超普通同事。在Microsoft 365 Copilot试点中,神经多样性员工满意度达90%置信水平,推荐度达95%置信水平,均显著高于其他用户。患有ADHD和阅读障碍的员工表示AI工具为他们提供了前所未有的工作支持,特别是在报告撰写方面。研究表明,AI工具正在填补传统无障碍技术未能解决的职场差距,为残障人士提供了隐形的工作辅助。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。