Galileo 发布新平台用于评估 AI 代理系统

Galileo 发布了 Agentic Evaluations 平台，用于评估基于大语言模型的 AI 代理性能。该平台提供全生命周期框架，支持系统级和步骤级评估，帮助开发者快速定位inefficiencies和错误。平台使用专有的 LLM-as-a-Judge 指标，支持 LangGraph 和 CrewAI 框架，现已向所有 Galileo 用户开放。

Galileo Technologies Inc.（一家专门开发 AI 模型观察和评估工具的公司）今天推出了 Agentic Evaluations 平台，该平台旨在评估由大语言模型驱动的 AI 代理系统的性能。

该公司表示，他们正在解决代理系统带来的额外复杂性问题。这些软件机器人具备决策能力，能够在几乎不需要人工监督的情况下，跨多个步骤进行规划、推理和执行任务，并能适应不断变化的环境和场景。

由于代理系统的行为具有情境依赖性，开发人员往往难以理解故障发生的时间和原因。但这并未影响人们对这项技术在提升工作流程效率方面的兴趣。Gartner Inc. 预测，到 2028 年，33% 的企业软件应用将包含代理式 AI，而 2024 年这一比例还不到 1%。

代理系统以新的方式挑战着现有的开发和测试技术。首先，它们可以针对用户请求选择多个动作序列，这使其行为难以预测。复杂的代理工作流程难以建模，需要更复杂的评估方法。代理系统可能会使用多个大语言模型，这使得性能和成本更难确定。随着工作流程的规模和复杂性增加，错误风险也会增大。

Galileo 表示，其 Agentic Evaluations 为系统级和逐步评估提供了完整的生命周期框架。它让开发人员可以查看整个多步骤代理过程，从输入到完成的全过程，通过追踪和简单的可视化展示，帮助开发人员快速定位效率低下和错误之处。该平台使用一套专有的"LLM-as-a-Judge"指标（一种使用大语言模型来检查和评判任务的评估技术），专门服务于构建代理系统的开发人员。

评估指标包括对大语言模型规划器是否选择了正确的工具和参数的评估、对单个工具错误的评估、反映最终目标进展的追踪，以及最终行动与代理系统原始指令的一致性。根据公司博客文章显示，这些指标的准确率在 93% 到 97% 之间。

平台使用专有的、基于研究的指标在多个层面测量性能。开发人员可以选择参与规划的大语言模型，并评估单个任务中的错误。

跨会话和时间段的成本、延迟和错误的聚合跟踪有助于成本和延迟测量。警报和仪表板有助于识别系统性问题，以实现持续改进，例如工具调用失败或行动与指令之间的不一致。该平台支持流行的开源 AI 框架 LangGraph 和 CrewAI。

Agentic Evaluations 现已向所有 Galileo 用户开放。该公司已筹集 6800 万美元资金，包括去年十月的 4500 万美元融资轮。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Galileo 发布新平台用于评估 AI 代理系统

来源：SiliconANGLE

2025

01/24

14:29

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: