用"战舰"游戏训练AI智能体提问能力

麻省理工学院CSAIL与哈佛大学SEAS的研究人员借助经典猜谜游戏"战舰"，探索如何提升大语言模型的提问能力。研究团队构建了"协作战舰"游戏框架，通过蒙特卡洛推理策略显著改善模型的信息搜寻能力。实验显示，经过优化的Llama 4 Scout对人类玩家的胜率从8%跃升至82%，且成本仅为GPT-5的约1%。此外，将问题转化为代码的方法使模型回答准确率平均提升15%，相关成果已在ICLR 2025上作为口头报告发表。

2026年，围绕AI智能体的讨论热度持续攀升。这类半自主程序能够"思考"并执行客户服务、软件开发等领域中定义明确的任务，通常以大语言模型为核心驱动。然而，医疗诊断、科学探索等领域要求智能体在不确定的环境中对大量可能的解决方案进行探索，这恰恰是大语言模型的短板所在。

麻省理工学院计算机科学与人工智能实验室（CSAIL）和哈佛大学工程与应用科学学院（SEAS）的研究人员深入剖析了大语言模型在高风险场景中的核心问题。他们选取"战舰"这款经典猜谜游戏作为测试载体——认知科学家长期以来借助这款游戏研究人类的信息搜索行为。

两支团队的研究人员为这款游戏引入了新的变体，将其改造为围绕自然语言问答展开的形式。在"协作战舰"游戏中，一名参与者扮演"船长"，负责询问隐藏舰船的位置；队友则扮演"观察员"，实时回应这些问题。

研究人员首先让40余名人类玩家参与游戏，收集他们的提问与是非题作答，构建出"BattleshipQA"数据集。随后，团队用这批数据作为对照基准，在游戏中测试了包括GPT-5在内的前沿大语言模型和Llama 4 Scout等小型模型。在未对模型进行预训练的情况下，结果显示：顶尖大语言模型能够在"战舰"游戏中"击败"人类，即用更少的回合完成游戏；而小型模型的表现则明显不够理性。

核心问题在于，许多模型根本不擅长提出有价值的问题。为了引导大语言模型提出能揭示更多隐藏舰船信息的问题，研究人员为每个模型引入了蒙特卡洛推理策略，该策略能够在每次回应后精确衡量不同选项为正确答案的概率。结果表明，无论模型规模大小，AI模型均能在"战舰"游戏中战胜普通玩家。

其中最引人瞩目的是Llama 4 Scout的提升幅度。作为一款相对小型的大语言模型，它最初仅有8%的胜率能够超越人类，但在优化推理策略后，该模型对阵人类的胜率跃升至82%。这种审慎高效的提问方式还让该模型在性能上超越了前沿模型GPT-5，而运行成本仅约为后者的1%。

在此之外，研究人员还缩小了人类与大语言模型在问题作答方面的差距。GPT-5作为"观察员"表现可靠，有效帮助模型加快了游戏进程；而小型模型则存在频繁给出错误位置信息的问题。当模型开始将问题转化为代码来明确指导答案核验时（例如，被问及某处是否有舰船时，令模型执行区域快速搜索），模型的平均准确率提升了15%。

麻省理工学院博士生、CSAIL研究员Gabriel Grand表示："当今的大语言模型主要针对回答复杂问题进行了优化，但它们能否自主学会提出好问题，目前尚不明朗。我们的研究表明，提出有效问题依赖于预测和模拟世界的能力。我们发现，当智能体获得'世界模型'的支持后，它们能够提出更好的问题，并更高效地做出发现。"

大语言模型的方法论变革

研究团队首先专注于提升大语言模型的提问质量。通过引入蒙特卡洛推理策略，大语言模型将潜在猜测视为独立粒子进行推理。随着"观察员"每次给出回答，那些看起来更合理的选项会获得更高权重，就像游戏中随每一轮涨缩的气球。借助这种更为精细、自适应的方法，"船长"可以提出能从"观察员"处获取更多信息的问题。

研究人员随后借助广泛使用的编程语言Python来辅助AI"观察员"。"船长"提出的每个问题都会被自动转化为编码指令。例如，"第一列是否有一艘横跨两行的舰船？"这类问题会被转化为指令，要求"观察员"大语言模型搜索相关区域并评估游戏棋子的宽度。通过以模型能够理解的语言给出明确指令，每个系统的答题正确率均大幅提升。轻量级模型GPT-4o-mini的性能提升了近30%，而大型模型Claude 4 Opus也提升了约8个百分点。

"'自动形式化'策略在业内已取得诸多成果——即让大语言模型生成代码以验证其解答，"论文通讯作者、麻省理工学院电气工程与计算机科学副教授、CSAIL首席研究员Jacob Andreas说，"这项工作令我最为兴奋之处在于，它开辟了利用这些技术从根本上生成更优解的可能性，通过提升大语言模型的探索能力和信息收集能力来实现这一目标。我们期待将这项研究从科学领域拓展至编程和数学问题求解等应用场景。"

拓展至其他游戏

那么，这套方法在其他棋盘游戏中表现如何？研究团队将升级后的大语言模型带入"猜猜我是谁？"游戏，大小模型均能熟练地从100个选项中缩小范围，准确猜出被选中的隐藏角色。Llama 4 Scout原本成功率为30%，经过调整后在超过72%的测试中完成了任务；GPT-4o则从62%跃升至90%。为确保问题得到尽可能准确的回答，每轮游戏均由GPT-5担任"观察员"。

尽管大语言模型在两款游戏中均取得了可喜进展，但仍有提升空间。例如，与人类相比，模型在回答复杂问题方面仍然存在不足。OpenAI研究员、哈佛大学届毕业生、论文合著者Valerio Pepe补充道："GPT-5能够击败普通'战舰'玩家，借助我们的方法还能略有提升。但对于所有模型而言，专家级玩家依然难以应对——这与国际象棋不同，即便是顶尖棋手在AI面前也难逃败局。"

研究结果表明，AI智能体在"大海捞针"式发现任务中尚有潜力有待挖掘——即在海量选项中定位能够解决科学难题的稀有答案。尽管信息搜索能力的提升将使智能体成为出色的研究助手（例如协助识别化合物的分子结构），研究人员也坦言，"协作战舰"仍是一个相对简单的测试场景，他们希望在更复杂的环境中测试大语言模型，让这些系统面对更多的备选方案。

Grand还计划让人类与AI模型开展协作，研究双方是否能实现优势互补。模型也可能从游戏模拟的微调训练中获益，而随着算力的增强，大语言模型将具备更强的推理能力，能够更准确地预测游戏的走向。

斯坦福大学语言学助理教授Robert Hawkins（未参与本论文研究）表示："随着AI系统越来越具有智能体属性，最棘手的问题往往是社会性的：追踪共同认知基础、消解误解，以及随时间推移适应不同的协作伙伴。这项研究在受控的协作场景中对上述现象进行了精妙的刻画，并令人信服地指出：AI智能体真正的瓶颈不仅在于最优问题的计算，更在于充分利用答案所需的语用推理能力。"

本文论文由Grand、Pepe与两位CSAIL首席研究员共同撰写，合作者为麻省理工学院副教授Jacob Andreas和麻省理工学院教授Joshua Tenenbaum。研究工作获得了麻省理工学院Siegel家族智能探索项目、MIT-IBM沃森AI实验室、FinTechAI@CSAIL计划、斯隆研究奖学金、英特尔、美国空军科学研究办公室、美国国防高级研究计划局、海军研究办公室以及美国国家科学基金会的部分支持。该论文以口头报告形式在今年4月举办的国际学习表征大会（ICLR）上发表。

Q&A

Q1：BattleshipQA数据集是怎么建立的，有什么用途？

A：研究人员邀请40余名人类玩家参与"协作战舰"游戏，收集他们在游戏过程中提出的问题以及对应的是非题作答，由此构建了BattleshipQA数据集。这份数据集被用作基准对照，帮助研究团队评估GPT-5、Llama 4 Scout等大语言模型与人类在提问和作答方面的差距，从而找到模型的薄弱环节并加以改进。

Q2：蒙特卡洛推理策略是如何提升大语言模型提问质量的？

A：蒙特卡洛推理策略让大语言模型把每个潜在猜测视为独立粒子，在"观察员"每次给出回答后，动态调整各选项的可信权重——更合理的选项权重上升，不合理的下降。这使模型能够更有针对性地提出问题，从每次回答中挖掘出更多有用信息。以Llama 4 Scout为例，引入该策略后其对阵人类的胜率从8%大幅提升至82%，且运行成本仅为GPT-5的约1%。

Q3：将问题转化为Python代码对AI回答准确率有多大帮助？

A：效果相当显著。研究人员让大语言模型将自然语言问题自动转化为Python代码指令，明确告知模型如何核验答案（如搜索指定区域判断是否有舰船存在）。这一方法使模型的平均答题准确率提升了15%。其中轻量级模型GPT-4o-mini提升幅度最大，性能提高了近30%；大型模型Claude 4 Opus也提升了约8个百分点。

来源：MIT News

0赞

好文章，需要你的鼓励

用"战舰"游戏训练AI智能体提问能力

来源：MIT News

2026

06/04

16:59

分享

点赞

明阳电气马来西亚首个海外生产基地投产，输配电设备开始本地制造

数学家发出警告：AI正威胁数学研究的自主性与学术标准

SpaceX冲击史上最大IPO，马斯克或成首位万亿富翁

日本力推大阪成为机器人与科技投资的重要门户

Genesis AI发布机器人仿真平台，将评测周期从数天压缩至30分钟

智能眼镜与隐形耳机或加剧学校考试作弊风险

AI激光灭蚊仪：用深度学习精准猎杀蚊子

IBM与Red Hat携手打造企业开源安全"清算中心"

Google AI Edge Gallery正式登陆macOS，支持在Mac上本地运行Gemini模型

瑞士研究团队宣称利用量子芯片构建出完美随机数生成器

加利福尼亚州城市率先通过选民投票禁止数据中心建设

数据中心跃升为美国最大私人办公建筑细分市场

Lovable与谷歌云签署多年合作协议，云端使用规模将扩大五倍

Mac出现卡顿或性能下降？AI照片扫描或是幕后元凶

苹果欧洲首个开发者中心即将亮相，内部抢先看

Meta追赶AI竞争对手的内部努力

Apple Watch的AI未来不是聊天机器人，而是私人教练

苹果需要在WWDC发布下一代Siri，为未来设备提供AI支撑

谷歌测试新功能，允许网站选择退出AI搜索展示

Meta Business智能体现已面向全球WhatsApp商业用户开放

英国出台新规：出版商可选择退出谷歌AI搜索

两位来自高盛和Meta的创始人，为被忽视的市场打造语音AI

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: