MCP-Universe基准测试显示GPT-5在超半数真实业务场景中表现不佳

Salesforce AI研究团队开发了开源基准测试MCP-Universe，用于评估大语言模型在真实世界中与MCP服务器的交互能力。测试涵盖位置导航、代码库管理、金融分析等六个企业核心领域的231项任务。结果显示，即使是OpenAI最新发布的GPT-5等顶级模型，在处理企业级真实场景任务时仍面临挑战，超过一半的企业典型任务无法成功完成，特别是在长上下文和未知工具使用方面表现不佳。

互操作性标准（如模型上下文协议MCP）的采用，可以为企业提供智能体和模型在封闭环境外运行情况的洞察。然而，许多基准测试未能捕捉到与MCP的真实交互情况。

Salesforce AI研究团队开发了一个名为MCP-Universe的新开源基准测试，旨在跟踪大语言模型与现实世界MCP服务器的交互表现，认为这将更好地反映模型与企业实际使用工具的真实时间交互情况。在初步测试中，研究发现OpenAI最新发布的GPT-5等模型虽然表现强劲，但在现实场景中的表现仍不尽如人意。

Salesforce在论文中表示："现有基准测试主要关注大语言模型性能的孤立方面，如指令遵循、数学推理或函数调用，而未能全面评估模型在不同场景下与真实世界MCP服务器的交互方式。"

MCP-Universe通过工具使用、多轮工具调用、长上下文窗口和大工具空间来捕捉模型性能。它基于现有MCP服务器构建，可访问真实数据源和环境。

Salesforce AI研究总监Junnan Li向VentureBeat表示，许多模型"在企业级任务上仍面临限制"。他指出两大主要挑战："长上下文挑战——模型在处理非常长或复杂输入时可能失去信息追踪或推理一致性；未知工具挑战——模型通常无法像人类那样灵活适应不熟悉的工具或系统。"

MCP-Universe与其他基于MCP的基准测试相结合，如马萨诸塞大学阿默斯特分校和西安交通大学提出的MCP-Radar，以及北京邮电大学的MCPWorld。它还基于Salesforce在7月发布的主要关注智能体的MCPEvals构建。Li表示，MCP-Universe与MCPEvals最大的区别在于后者使用合成任务进行评估。

**工作原理**

MCP-Universe评估每个模型执行一系列模拟企业任务的表现。Salesforce设计MCP-Universe涵盖企业使用的六个核心领域：位置导航、代码库管理、财务分析、3D设计、浏览器自动化和网络搜索。研究团队访问了11个MCP服务器，总计231个任务。

位置导航专注于地理推理和空间任务执行，研究人员利用Google Maps MCP服务器。代码库管理领域关注代码库操作，连接GitHub MCP以展示版本控制工具。财务分析连接Yahoo Finance MCP服务器，评估定量推理和金融市场决策能力。3D设计通过Blender MCP评估计算机辅助设计工具使用。浏览器自动化连接Playwright的MCP测试浏览器交互。网络搜索领域采用Google Search MCP服务器和Fetch MCP检查"开放域信息搜索"。

研究团队为每个领域创建了四到五种任务类型。评估采用基于执行的评估范式，而非常见的大语言模型评判系统，因为"大语言模型评判范式不适合MCP-Universe场景，某些任务使用实时数据，而大语言模型评判的知识是静态的"。

**测试结果显示主要模型仍有困难**

为测试MCP-Universe，Salesforce评估了多个热门专有和开源模型，包括xAI的Grok-4、Anthropic的Claude-4 Sonnet、OpenAI的GPT-5、Google的Gemini 2.5 Pro等。每个测试模型至少拥有120B参数。

测试发现GPT-5成功率最高，特别是在财务分析任务中。Grok-4紧随其后，在浏览器自动化方面表现最佳。在开源模型中，GLM-4.5表现最佳。

然而，MCP-Universe显示模型在处理长上下文时存在困难，特别是位置导航、浏览器自动化和财务分析方面，效率显著下降。遇到未知工具时，大语言模型性能也会下降。研究表明，大语言模型在超过一半的企业典型任务中难以完成。

论文总结道："这些发现凸显了当前前沿大语言模型在可靠执行多样化真实世界MCP任务方面仍有不足。因此，我们的MCP-Universe基准测试为评估现有基准测试服务不足领域的大语言模型性能提供了具有挑战性且必要的测试平台。"

Li希望企业使用MCP-Universe深入了解智能体和模型在任务中的失败点，以便改进框架或MCP工具实施。

Q&A

Q1：MCP-Universe基准测试是什么？它有什么特点？

A：MCP-Universe是Salesforce AI研究团队开发的开源基准测试，专门跟踪大语言模型与现实世界MCP服务器的交互表现。它通过工具使用、多轮工具调用、长上下文窗口和大工具空间来评估模型性能，基于真实MCP服务器构建，可访问实际数据源和环境。

Q2：GPT-5在MCP-Universe测试中表现如何？

A：GPT-5在测试中获得了最高成功率，特别是在财务分析任务方面表现突出。但研究发现，即使是GPT-5这样的前沿模型，在处理长上下文和未知工具时仍存在困难，在超过一半的企业典型任务中难以完成。

Q3：MCP-Universe测试涵盖哪些应用领域？

A：MCP-Universe涵盖企业使用的六个核心领域：位置导航（地理推理和空间任务）、代码库管理（GitHub版本控制）、财务分析（Yahoo Finance数据处理）、3D设计（Blender工具使用）、浏览器自动化（Playwright交互）和网络搜索（Google Search信息检索）。

来源：VentureBeat

0赞

好文章，需要你的鼓励

MCP-Universe基准测试显示GPT-5在超半数真实业务场景中表现不佳

来源：VentureBeat

2025

08/25

08:05

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

YouTube提升AI生成视频标签的显示效果

Zed编辑器Windows版本移植延迟揭示跨平台开发难题

英伟达推出千兆级网络与快速推理服务技术

沃尔玛AI安全堆栈内幕：初创思维强化企业级防护

生成式AI正在重塑社交媒体营销，人机平衡成关键

微软AI高管称研究AI意识问题是"危险的"

谷歌AI搜索模式全球扩展推出智能体预订功能

基于事件驱动的智能体AI重塑企业资源规划系统

机器人软件创企FieldAI获4.05亿美元融资

Epic发布医疗智能体系统重新定义健康产业生态

GPT-4o开启太空舱门：AI Space Cortex让航天器具备自主运行能力

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: