互操作性标准(如模型上下文协议MCP)的采用,可以为企业提供智能体和模型在封闭环境外运行情况的洞察。然而,许多基准测试未能捕捉到与MCP的真实交互情况。
Salesforce AI研究团队开发了一个名为MCP-Universe的新开源基准测试,旨在跟踪大语言模型与现实世界MCP服务器的交互表现,认为这将更好地反映模型与企业实际使用工具的真实时间交互情况。在初步测试中,研究发现OpenAI最新发布的GPT-5等模型虽然表现强劲,但在现实场景中的表现仍不尽如人意。
Salesforce在论文中表示:"现有基准测试主要关注大语言模型性能的孤立方面,如指令遵循、数学推理或函数调用,而未能全面评估模型在不同场景下与真实世界MCP服务器的交互方式。"
MCP-Universe通过工具使用、多轮工具调用、长上下文窗口和大工具空间来捕捉模型性能。它基于现有MCP服务器构建,可访问真实数据源和环境。
Salesforce AI研究总监Junnan Li向VentureBeat表示,许多模型"在企业级任务上仍面临限制"。他指出两大主要挑战:"长上下文挑战——模型在处理非常长或复杂输入时可能失去信息追踪或推理一致性;未知工具挑战——模型通常无法像人类那样灵活适应不熟悉的工具或系统。"
MCP-Universe与其他基于MCP的基准测试相结合,如马萨诸塞大学阿默斯特分校和西安交通大学提出的MCP-Radar,以及北京邮电大学的MCPWorld。它还基于Salesforce在7月发布的主要关注智能体的MCPEvals构建。Li表示,MCP-Universe与MCPEvals最大的区别在于后者使用合成任务进行评估。
**工作原理**
MCP-Universe评估每个模型执行一系列模拟企业任务的表现。Salesforce设计MCP-Universe涵盖企业使用的六个核心领域:位置导航、代码库管理、财务分析、3D设计、浏览器自动化和网络搜索。研究团队访问了11个MCP服务器,总计231个任务。
位置导航专注于地理推理和空间任务执行,研究人员利用Google Maps MCP服务器。代码库管理领域关注代码库操作,连接GitHub MCP以展示版本控制工具。财务分析连接Yahoo Finance MCP服务器,评估定量推理和金融市场决策能力。3D设计通过Blender MCP评估计算机辅助设计工具使用。浏览器自动化连接Playwright的MCP测试浏览器交互。网络搜索领域采用Google Search MCP服务器和Fetch MCP检查"开放域信息搜索"。
研究团队为每个领域创建了四到五种任务类型。评估采用基于执行的评估范式,而非常见的大语言模型评判系统,因为"大语言模型评判范式不适合MCP-Universe场景,某些任务使用实时数据,而大语言模型评判的知识是静态的"。
**测试结果显示主要模型仍有困难**
为测试MCP-Universe,Salesforce评估了多个热门专有和开源模型,包括xAI的Grok-4、Anthropic的Claude-4 Sonnet、OpenAI的GPT-5、Google的Gemini 2.5 Pro等。每个测试模型至少拥有120B参数。
测试发现GPT-5成功率最高,特别是在财务分析任务中。Grok-4紧随其后,在浏览器自动化方面表现最佳。在开源模型中,GLM-4.5表现最佳。
然而,MCP-Universe显示模型在处理长上下文时存在困难,特别是位置导航、浏览器自动化和财务分析方面,效率显著下降。遇到未知工具时,大语言模型性能也会下降。研究表明,大语言模型在超过一半的企业典型任务中难以完成。
论文总结道:"这些发现凸显了当前前沿大语言模型在可靠执行多样化真实世界MCP任务方面仍有不足。因此,我们的MCP-Universe基准测试为评估现有基准测试服务不足领域的大语言模型性能提供了具有挑战性且必要的测试平台。"
Li希望企业使用MCP-Universe深入了解智能体和模型在任务中的失败点,以便改进框架或MCP工具实施。
Q&A
Q1:MCP-Universe基准测试是什么?它有什么特点?
A:MCP-Universe是Salesforce AI研究团队开发的开源基准测试,专门跟踪大语言模型与现实世界MCP服务器的交互表现。它通过工具使用、多轮工具调用、长上下文窗口和大工具空间来评估模型性能,基于真实MCP服务器构建,可访问实际数据源和环境。
Q2:GPT-5在MCP-Universe测试中表现如何?
A:GPT-5在测试中获得了最高成功率,特别是在财务分析任务方面表现突出。但研究发现,即使是GPT-5这样的前沿模型,在处理长上下文和未知工具时仍存在困难,在超过一半的企业典型任务中难以完成。
Q3:MCP-Universe测试涵盖哪些应用领域?
A:MCP-Universe涵盖企业使用的六个核心领域:位置导航(地理推理和空间任务)、代码库管理(GitHub版本控制)、财务分析(Yahoo Finance数据处理)、3D设计(Blender工具使用)、浏览器自动化(Playwright交互)和网络搜索(Google Search信息检索)。
好文章,需要你的鼓励
研究显示开发者仅16%时间用于编码,其余84%消耗在运营支持任务上。频繁的工具切换导致开发者每天在应用间跳转1200次,每次中断需23分钟恢复专注。Anthropic推出的模型上下文协议MCP正在改变这一现状,它能将AI编程助手直接连接到开发者日常使用的工具,在IDE内完成从需求分析到代码编写的全流程,大幅减少上下文切换,让开发者保持专注状态。
麻省理工学院研究团队开发出突破性的三维场景理解技术,让机器能够像人类一样理解复杂的三维空间。该技术采用分层空间表示和多模态数据融合,在场景重建准确率上达到92.3%,平均定位误差仅2.1厘米。这项技术将广泛应用于机器人、自动驾驶、AR/VR等领域,为人工智能的空间理解能力带来重大突破。
旧金山初创公司Oway近日完成400万美元种子轮融资,致力于解决美国货运效率低下问题。该公司利用人工智能和电子记录设备技术,将货物与半空货车空间进行智能匹配,声称可将跨美货运成本降低50%。通过实时追踪卡车位置和自动化文档处理,Oway为客户提供类似Uber的去中心化货运服务,旨在兼具整车运输的速度和零担运输的成本优势。
北京交通大学研究团队在2024年NeurIPS会议上发表突破性研究,提出概率鲁棒性理论框架解决AI模型在现实部署中的性能不稳定问题。该方法通过优化训练过程让AI学习数据本质特征而非表面现象,显著提升模型在环境变化下的稳定性,为医疗、自动驾驶等关键应用提供更可靠的AI解决方案。