微软构建虚假市场测试AI智能体，结果暴露意外缺陷

微软研究人员发布新的仿真环境来测试AI智能体，研究显示当前智能体模型容易受到操纵。该名为"Magentic Marketplace"的合成平台让客户智能体与商家智能体进行交互实验。测试包括GPT-4o、GPT-5和Gemini-2.5-Flash等模型，发现智能体在面临过多选择时效率下降，且在协作方面表现不佳。研究揭示了AI智能体在无监督环境下的性能问题。

周三，微软研究人员发布了一个专门用于测试AI智能体的新仿真环境，同时发布的新研究显示，当前的智能体模型可能容易受到操控。这项与亚利桑那州立大学合作进行的研究，对AI智能体在无监督环境下的工作表现，以及AI公司能否兑现智能体未来的承诺，提出了新的质疑。

这个被微软称为"Magentic Marketplace"的仿真环境，是一个专门用于实验AI智能体行为的合成平台。典型的实验场景可能包括：客户智能体试图根据用户指令订购晚餐，而代表各家餐厅的智能体则相互竞争以获得订单。

研究团队的初步实验包括100个客户端智能体与300个商户端智能体的交互。由于该市场平台的源代码是开源的，其他研究团队应该能够轻松采用这些代码来进行新实验或重现研究结果。

微软研究院AI前沿实验室总监埃斯·卡马尔表示，这类研究对于理解AI智能体的能力至关重要。"关于这些智能体相互协作、对话和谈判将如何改变世界，确实存在疑问，"卡马尔说。"我们希望深入理解这些问题。"

初步研究测试了多个领先模型，包括GPT-4o、GPT-5和Gemini-2.5-Flash，发现了一些令人意外的弱点。研究人员特别发现了商家可以用来操控客户智能体购买其产品的几种技术。研究人员注意到，当客户智能体面临更多选择时，效率会特别下降，过多选项会压倒智能体的注意力空间。

"我们希望这些智能体能够帮助我们处理大量选项，"卡马尔说。"但我们看到当前的模型实际上在面对太多选项时会变得非常困扰。"

当被要求为共同目标而协作时，智能体也遇到了困难，显然不确定哪个智能体应该在协作中扮演什么角色。当模型获得更明确的协作指导时，表现有所改善，但研究人员仍然认为模型的固有能力需要提升。

"我们可以指导这些模型——比如可以一步步告诉它们，"卡马尔说。"但如果我们本质上是在测试它们的协作能力，我期望这些模型默认就应该具备这些能力。"

Q&A

Q1：Magentic Marketplace是什么？

A：Magentic Marketplace是微软开发的一个仿真环境，专门用于测试AI智能体行为。它是一个合成平台，可以模拟各种场景，比如客户智能体根据用户指令订购晚餐，而餐厅智能体相互竞争获得订单。

Q2：AI智能体在测试中暴露了哪些问题？

A：测试发现AI智能体存在几个关键弱点：容易被商家操控去购买产品；面对过多选择时效率会显著下降；在协作时不确定各自应该扮演的角色，需要明确指导才能改善表现。

Q3：这项研究测试了哪些AI模型？

A：研究测试了多个领先的AI模型，包括GPT-4o、GPT-5和Gemini-2.5-Flash。所有这些模型都在仿真市场环境中显示出了意外的弱点，特别是在处理复杂选择和协作任务方面。

来源：Techcrunch

0赞

好文章，需要你的鼓励

微软构建虚假市场测试AI智能体，结果暴露意外缺陷

来源：Techcrunch

2025

11/06

11:06

分享

点赞

红帽深化与NVIDIA的合作，将企业级开源与机架级AI深度结合，加速实现可投入生产的创新

Linux在CES 2026：企鹅系统依然活跃于物联网、汽车和AI领域

Vibe Bot推出桌面AI智能体设备

Razer推出桌面AI动漫全息投影智能助手

Cloudera：构建符合伦理标准的AI，可信数据是关键

Nvidia发布Vera Rubin AI计算平台，性能大幅提升

7种削弱IT业务价值的致命做法

PTC在NRF 2026大会上发布AI驱动的FlexPLM新功能

如何终结针对IT部门的指责游戏

Windchill + Makersite，让可持续性从“理念”变为“行动”

Linux基金会领导者：我们并未处在AI泡沫中

全新软件与模型优化为 NVIDIA DGX Spark 注入强大动力

Perplexity展示如何在老旧GPU和AWS网络上高效运行大型AI模型

企业AI应用的四个关键策略：从随机试验到深度整合

Stream Ring：这枚智能戒指能悄悄记录你的想法

Alphabet正转变策略：将"登月项目"作为独立公司推向市场

企业构建可信赖AI为何如此关键

亚马逊对战Perplexity：商业未来之争正式打响

东芝发布24TB容量S300 AI视频监控硬盘

Hitachi Vantara发布iQ Studio智能体构建平台

Snowflake大举推进智能体AI功能建设

软银与OpenAI在日本成立合资公司，AI投资呈现循环模式

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: