微软构建虚假市场测试AI智能体，结果暴露意外缺陷

微软研究人员发布新的仿真环境来测试AI智能体，研究显示当前智能体模型容易受到操纵。该名为"Magentic Marketplace"的合成平台让客户智能体与商家智能体进行交互实验。测试包括GPT-4o、GPT-5和Gemini-2.5-Flash等模型，发现智能体在面临过多选择时效率下降，且在协作方面表现不佳。研究揭示了AI智能体在无监督环境下的性能问题。

周三，微软研究人员发布了一个专门用于测试AI智能体的新仿真环境，同时发布的新研究显示，当前的智能体模型可能容易受到操控。这项与亚利桑那州立大学合作进行的研究，对AI智能体在无监督环境下的工作表现，以及AI公司能否兑现智能体未来的承诺，提出了新的质疑。

这个被微软称为"Magentic Marketplace"的仿真环境，是一个专门用于实验AI智能体行为的合成平台。典型的实验场景可能包括：客户智能体试图根据用户指令订购晚餐，而代表各家餐厅的智能体则相互竞争以获得订单。

研究团队的初步实验包括100个客户端智能体与300个商户端智能体的交互。由于该市场平台的源代码是开源的，其他研究团队应该能够轻松采用这些代码来进行新实验或重现研究结果。

微软研究院AI前沿实验室总监埃斯·卡马尔表示，这类研究对于理解AI智能体的能力至关重要。"关于这些智能体相互协作、对话和谈判将如何改变世界，确实存在疑问，"卡马尔说。"我们希望深入理解这些问题。"

初步研究测试了多个领先模型，包括GPT-4o、GPT-5和Gemini-2.5-Flash，发现了一些令人意外的弱点。研究人员特别发现了商家可以用来操控客户智能体购买其产品的几种技术。研究人员注意到，当客户智能体面临更多选择时，效率会特别下降，过多选项会压倒智能体的注意力空间。

"我们希望这些智能体能够帮助我们处理大量选项，"卡马尔说。"但我们看到当前的模型实际上在面对太多选项时会变得非常困扰。"

当被要求为共同目标而协作时，智能体也遇到了困难，显然不确定哪个智能体应该在协作中扮演什么角色。当模型获得更明确的协作指导时，表现有所改善，但研究人员仍然认为模型的固有能力需要提升。

"我们可以指导这些模型——比如可以一步步告诉它们，"卡马尔说。"但如果我们本质上是在测试它们的协作能力，我期望这些模型默认就应该具备这些能力。"

Q&A

Q1：Magentic Marketplace是什么？

A：Magentic Marketplace是微软开发的一个仿真环境，专门用于测试AI智能体行为。它是一个合成平台，可以模拟各种场景，比如客户智能体根据用户指令订购晚餐，而餐厅智能体相互竞争获得订单。

Q2：AI智能体在测试中暴露了哪些问题？

A：测试发现AI智能体存在几个关键弱点：容易被商家操控去购买产品；面对过多选择时效率会显著下降；在协作时不确定各自应该扮演的角色，需要明确指导才能改善表现。

Q3：这项研究测试了哪些AI模型？

A：研究测试了多个领先的AI模型，包括GPT-4o、GPT-5和Gemini-2.5-Flash。所有这些模型都在仿真市场环境中显示出了意外的弱点，特别是在处理复杂选择和协作任务方面。

来源：Techcrunch

0赞

好文章，需要你的鼓励

微软构建虚假市场测试AI智能体，结果暴露意外缺陷

来源：Techcrunch

2025

11/06

11:06

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Perplexity展示如何在老旧GPU和AWS网络上高效运行大型AI模型

企业AI应用的四个关键策略：从随机试验到深度整合

Stream Ring：这枚智能戒指能悄悄记录你的想法

Alphabet正转变策略：将"登月项目"作为独立公司推向市场

企业构建可信赖AI为何如此关键

亚马逊对战Perplexity：商业未来之争正式打响

东芝发布24TB容量S300 AI视频监控硬盘

Hitachi Vantara发布iQ Studio智能体构建平台

Snowflake大举推进智能体AI功能建设

软银与OpenAI在日本成立合资公司，AI投资呈现循环模式

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会