Galileo 发布新平台用于评估 AI 代理系统

Galileo 发布了 Agentic Evaluations 平台，用于评估基于大语言模型的 AI 代理性能。该平台提供全生命周期框架，支持系统级和步骤级评估，帮助开发者快速定位inefficiencies和错误。平台使用专有的 LLM-as-a-Judge 指标，支持 LangGraph 和 CrewAI 框架，现已向所有 Galileo 用户开放。

Galileo Technologies Inc.（一家专门开发 AI 模型观察和评估工具的公司）今天推出了 Agentic Evaluations 平台，该平台旨在评估由大语言模型驱动的 AI 代理系统的性能。

该公司表示，他们正在解决代理系统带来的额外复杂性问题。这些软件机器人具备决策能力，能够在几乎不需要人工监督的情况下，跨多个步骤进行规划、推理和执行任务，并能适应不断变化的环境和场景。

由于代理系统的行为具有情境依赖性，开发人员往往难以理解故障发生的时间和原因。但这并未影响人们对这项技术在提升工作流程效率方面的兴趣。Gartner Inc. 预测，到 2028 年，33% 的企业软件应用将包含代理式 AI，而 2024 年这一比例还不到 1%。

代理系统以新的方式挑战着现有的开发和测试技术。首先，它们可以针对用户请求选择多个动作序列，这使其行为难以预测。复杂的代理工作流程难以建模，需要更复杂的评估方法。代理系统可能会使用多个大语言模型，这使得性能和成本更难确定。随着工作流程的规模和复杂性增加，错误风险也会增大。

Galileo 表示，其 Agentic Evaluations 为系统级和逐步评估提供了完整的生命周期框架。它让开发人员可以查看整个多步骤代理过程，从输入到完成的全过程，通过追踪和简单的可视化展示，帮助开发人员快速定位效率低下和错误之处。该平台使用一套专有的"LLM-as-a-Judge"指标（一种使用大语言模型来检查和评判任务的评估技术），专门服务于构建代理系统的开发人员。

评估指标包括对大语言模型规划器是否选择了正确的工具和参数的评估、对单个工具错误的评估、反映最终目标进展的追踪，以及最终行动与代理系统原始指令的一致性。根据公司博客文章显示，这些指标的准确率在 93% 到 97% 之间。

平台使用专有的、基于研究的指标在多个层面测量性能。开发人员可以选择参与规划的大语言模型，并评估单个任务中的错误。

跨会话和时间段的成本、延迟和错误的聚合跟踪有助于成本和延迟测量。警报和仪表板有助于识别系统性问题，以实现持续改进，例如工具调用失败或行动与指令之间的不一致。该平台支持流行的开源 AI 框架 LangGraph 和 CrewAI。

Agentic Evaluations 现已向所有 Galileo 用户开放。该公司已筹集 6800 万美元资金，包括去年十月的 4500 万美元融资轮。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Galileo 发布新平台用于评估 AI 代理系统

来源：SiliconANGLE

2025

01/24

14:29

分享

点赞

业界首款符合AEC-Q200标准额定电压高达1,000 VDC高压保险丝

数据中心的智算挑战，英特尔要如何应对？

下一代智能工厂怎么建？开放自动化给出“解题思路”

跟随西门子，在工博会感受沉浸式的工业AI体验

苹果发布 iOS 26.0.1 系统更新，修复多项关键问题

OpenAI将发布类似TikTok的社交应用，搭配Sora 2视频模型

微软推出Office智能体模式让用户"氛围办公"

AI助手现在能帮你创建高质量Word文档和Excel表格

高通新一代骁龙平台将推动智能体AI时代到来

SAPx阿里云，开启一条通往中国市场与全球化发展的全新路径

微软推出"氛围工作"模式，为Office套件加入AI智能体

OpenAI推出智能购物系统挑战谷歌亚马逊

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: