周三,微软研究人员发布了一个专门用于测试AI智能体的新仿真环境,同时发布的新研究显示,当前的智能体模型可能容易受到操控。这项与亚利桑那州立大学合作进行的研究,对AI智能体在无监督环境下的工作表现,以及AI公司能否兑现智能体未来的承诺,提出了新的质疑。
这个被微软称为"Magentic Marketplace"的仿真环境,是一个专门用于实验AI智能体行为的合成平台。典型的实验场景可能包括:客户智能体试图根据用户指令订购晚餐,而代表各家餐厅的智能体则相互竞争以获得订单。
研究团队的初步实验包括100个客户端智能体与300个商户端智能体的交互。由于该市场平台的源代码是开源的,其他研究团队应该能够轻松采用这些代码来进行新实验或重现研究结果。
微软研究院AI前沿实验室总监埃斯·卡马尔表示,这类研究对于理解AI智能体的能力至关重要。"关于这些智能体相互协作、对话和谈判将如何改变世界,确实存在疑问,"卡马尔说。"我们希望深入理解这些问题。"
初步研究测试了多个领先模型,包括GPT-4o、GPT-5和Gemini-2.5-Flash,发现了一些令人意外的弱点。研究人员特别发现了商家可以用来操控客户智能体购买其产品的几种技术。研究人员注意到,当客户智能体面临更多选择时,效率会特别下降,过多选项会压倒智能体的注意力空间。
"我们希望这些智能体能够帮助我们处理大量选项,"卡马尔说。"但我们看到当前的模型实际上在面对太多选项时会变得非常困扰。"
当被要求为共同目标而协作时,智能体也遇到了困难,显然不确定哪个智能体应该在协作中扮演什么角色。当模型获得更明确的协作指导时,表现有所改善,但研究人员仍然认为模型的固有能力需要提升。
"我们可以指导这些模型——比如可以一步步告诉它们,"卡马尔说。"但如果我们本质上是在测试它们的协作能力,我期望这些模型默认就应该具备这些能力。"
Q&A
Q1:Magentic Marketplace是什么?
A:Magentic Marketplace是微软开发的一个仿真环境,专门用于测试AI智能体行为。它是一个合成平台,可以模拟各种场景,比如客户智能体根据用户指令订购晚餐,而餐厅智能体相互竞争获得订单。
Q2:AI智能体在测试中暴露了哪些问题?
A:测试发现AI智能体存在几个关键弱点:容易被商家操控去购买产品;面对过多选择时效率会显著下降;在协作时不确定各自应该扮演的角色,需要明确指导才能改善表现。
Q3:这项研究测试了哪些AI模型?
A:研究测试了多个领先的AI模型,包括GPT-4o、GPT-5和Gemini-2.5-Flash。所有这些模型都在仿真市场环境中显示出了意外的弱点,特别是在处理复杂选择和协作任务方面。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。