企业正开始采用模型上下文协议(MCP),主要用于促进智能体工具使用的识别和指导。然而,Salesforce的研究人员发现了利用MCP技术的另一种方式,这次是用于帮助评估AI智能体本身。
研究人员发布了MCPEval,这是一种基于MCP系统架构构建的新方法和开源工具包,用于测试智能体使用工具时的性能。他们指出,当前智能体的评估方法存在局限性,"通常依赖于静态的预定义任务,因此无法捕捉到交互式的真实世界智能体工作流程。"
"MCPEval超越了传统的成功/失败指标,通过系统性地收集详细的任务轨迹和协议交互数据,为智能体行为创造了前所未有的可见性,并生成了有价值的数据集用于迭代改进,"研究人员在论文中表示。"此外,由于任务创建和验证都是完全自动化的,所产生的高质量轨迹可以立即用于快速微调和智能体模型的持续改进。MCPEval生成的综合评估报告还在细粒度级别为智能体-平台通信的正确性提供了可操作的洞察。"
MCPEval的区别在于它是一个完全自动化的过程,研究人员声称这允许对新的MCP工具和服务器进行快速评估。它既收集智能体如何与MCP服务器内工具交互的信息,又生成合成数据并创建数据库来基准测试智能体。用户可以选择哪些MCP服务器以及这些服务器内的工具来测试智能体的性能。
Salesforce高级AI研究经理、论文作者之一Shelby Heinecke告诉VentureBeat,获得智能体性能的准确数据具有挑战性,特别是对于特定领域角色的智能体。
"我们已经到了这样一个阶段:如果你放眼整个科技行业,我们中的许多人已经弄清楚了如何部署它们。现在我们需要弄清楚如何正确评估它们,"Heinecke说。"MCP是一个非常新的想法,一个非常新的范式。所以,智能体能够访问工具是很好的,但我们同样需要在这些工具上评估智能体。这正是MCPEval的全部意义所在。"
**工作原理**
MCPEval的框架采用任务生成、验证和模型评估设计。利用多个大语言模型,用户可以选择使用他们更熟悉的模型,智能体可以通过市场上各种可用的大语言模型进行评估。
企业可以通过Salesforce发布的开源工具包访问MCPEval。通过仪表板,用户通过选择模型来配置服务器,然后自动生成任务供智能体在选定的MCP服务器内遵循。
一旦用户验证了任务,MCPEval就会接受这些任务并确定作为基本事实所需的工具调用。这些任务将用作测试的基础。用户选择他们偏好的模型来运行评估。MCPEval可以生成关于智能体和测试模型在访问和使用这些工具方面功能表现的报告。
Heinecke说,MCPEval不仅收集数据来基准测试智能体,还可以识别智能体性能中的差距。通过MCPEval评估智能体获得的信息不仅用于测试性能,还用于训练智能体以供未来使用。
"我们看到MCPEval正在发展成为评估和修复智能体的一站式商店,"Heinecke说。
她补充说,MCPEval区别于其他智能体评估器的地方在于,它将测试带到智能体将要工作的相同环境中。智能体被评估在访问MCP服务器内工具方面的表现,而这些服务器很可能是它们将要部署的地方。
论文指出,在实验中,GPT-4模型通常提供最佳的评估结果。
**评估智能体性能**
企业开始测试和监控智能体性能的需求导致了框架和技术的蓬勃发展。一些平台提供测试以及评估短期和长期智能体性能的更多方法。
AI智能体将代表用户执行任务,通常不需要人类提示它们。到目前为止,智能体已被证明是有用的,但它们可能会被其可使用的大量工具所压倒。
初创公司Galileo提供了一个框架,使企业能够评估智能体工具选择的质量并识别错误。Salesforce在其Agentforce仪表板上推出了测试智能体的功能。新加坡管理大学的研究人员发布了AgentSpec来实现和监控智能体可靠性。关于MCP评估的几项学术研究也已发表,包括MCP-Radar和MCPWorld。
由马萨诸塞大学阿默斯特分校和西安交通大学研究人员开发的MCP-Radar专注于更通用的领域技能,如软件工程或数学。该框架优先考虑效率和参数准确性。
另一方面,来自北京邮电大学的MCPWorld将基准测试引入图形用户界面、API和其他计算机使用智能体。
Heinecke说,最终,如何评估智能体将取决于公司和用例。然而,至关重要的是企业选择最适合其特定需求的评估框架。对于企业,她建议考虑特定领域的框架来彻底测试智能体在真实世界场景中的功能。
"这些评估框架中的每一个都有价值,这些都是很好的起点,因为它们给出了智能体有多强的一些早期信号,"Heinecke说。"但我认为最重要的评估是你的特定领域评估,并提出反映智能体将要运行环境的评估数据。"
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。