2026年,围绕AI智能体的讨论热度持续攀升。这类半自主程序能够"思考"并执行客户服务、软件开发等领域中定义明确的任务,通常以大语言模型为核心驱动。然而,医疗诊断、科学探索等领域要求智能体在不确定的环境中对大量可能的解决方案进行探索,这恰恰是大语言模型的短板所在。
麻省理工学院计算机科学与人工智能实验室(CSAIL)和哈佛大学工程与应用科学学院(SEAS)的研究人员深入剖析了大语言模型在高风险场景中的核心问题。他们选取"战舰"这款经典猜谜游戏作为测试载体——认知科学家长期以来借助这款游戏研究人类的信息搜索行为。
两支团队的研究人员为这款游戏引入了新的变体,将其改造为围绕自然语言问答展开的形式。在"协作战舰"游戏中,一名参与者扮演"船长",负责询问隐藏舰船的位置;队友则扮演"观察员",实时回应这些问题。
研究人员首先让40余名人类玩家参与游戏,收集他们的提问与是非题作答,构建出"BattleshipQA"数据集。随后,团队用这批数据作为对照基准,在游戏中测试了包括GPT-5在内的前沿大语言模型和Llama 4 Scout等小型模型。在未对模型进行预训练的情况下,结果显示:顶尖大语言模型能够在"战舰"游戏中"击败"人类,即用更少的回合完成游戏;而小型模型的表现则明显不够理性。
核心问题在于,许多模型根本不擅长提出有价值的问题。为了引导大语言模型提出能揭示更多隐藏舰船信息的问题,研究人员为每个模型引入了蒙特卡洛推理策略,该策略能够在每次回应后精确衡量不同选项为正确答案的概率。结果表明,无论模型规模大小,AI模型均能在"战舰"游戏中战胜普通玩家。
其中最引人瞩目的是Llama 4 Scout的提升幅度。作为一款相对小型的大语言模型,它最初仅有8%的胜率能够超越人类,但在优化推理策略后,该模型对阵人类的胜率跃升至82%。这种审慎高效的提问方式还让该模型在性能上超越了前沿模型GPT-5,而运行成本仅约为后者的1%。
在此之外,研究人员还缩小了人类与大语言模型在问题作答方面的差距。GPT-5作为"观察员"表现可靠,有效帮助模型加快了游戏进程;而小型模型则存在频繁给出错误位置信息的问题。当模型开始将问题转化为代码来明确指导答案核验时(例如,被问及某处是否有舰船时,令模型执行区域快速搜索),模型的平均准确率提升了15%。
麻省理工学院博士生、CSAIL研究员Gabriel Grand表示:"当今的大语言模型主要针对回答复杂问题进行了优化,但它们能否自主学会提出好问题,目前尚不明朗。我们的研究表明,提出有效问题依赖于预测和模拟世界的能力。我们发现,当智能体获得'世界模型'的支持后,它们能够提出更好的问题,并更高效地做出发现。"
大语言模型的方法论变革
研究团队首先专注于提升大语言模型的提问质量。通过引入蒙特卡洛推理策略,大语言模型将潜在猜测视为独立粒子进行推理。随着"观察员"每次给出回答,那些看起来更合理的选项会获得更高权重,就像游戏中随每一轮涨缩的气球。借助这种更为精细、自适应的方法,"船长"可以提出能从"观察员"处获取更多信息的问题。
研究人员随后借助广泛使用的编程语言Python来辅助AI"观察员"。"船长"提出的每个问题都会被自动转化为编码指令。例如,"第一列是否有一艘横跨两行的舰船?"这类问题会被转化为指令,要求"观察员"大语言模型搜索相关区域并评估游戏棋子的宽度。通过以模型能够理解的语言给出明确指令,每个系统的答题正确率均大幅提升。轻量级模型GPT-4o-mini的性能提升了近30%,而大型模型Claude 4 Opus也提升了约8个百分点。
"'自动形式化'策略在业内已取得诸多成果——即让大语言模型生成代码以验证其解答,"论文通讯作者、麻省理工学院电气工程与计算机科学副教授、CSAIL首席研究员Jacob Andreas说,"这项工作令我最为兴奋之处在于,它开辟了利用这些技术从根本上生成更优解的可能性,通过提升大语言模型的探索能力和信息收集能力来实现这一目标。我们期待将这项研究从科学领域拓展至编程和数学问题求解等应用场景。"
拓展至其他游戏
那么,这套方法在其他棋盘游戏中表现如何?研究团队将升级后的大语言模型带入"猜猜我是谁?"游戏,大小模型均能熟练地从100个选项中缩小范围,准确猜出被选中的隐藏角色。Llama 4 Scout原本成功率为30%,经过调整后在超过72%的测试中完成了任务;GPT-4o则从62%跃升至90%。为确保问题得到尽可能准确的回答,每轮游戏均由GPT-5担任"观察员"。
尽管大语言模型在两款游戏中均取得了可喜进展,但仍有提升空间。例如,与人类相比,模型在回答复杂问题方面仍然存在不足。OpenAI研究员、哈佛大学届毕业生、论文合著者Valerio Pepe补充道:"GPT-5能够击败普通'战舰'玩家,借助我们的方法还能略有提升。但对于所有模型而言,专家级玩家依然难以应对——这与国际象棋不同,即便是顶尖棋手在AI面前也难逃败局。"
研究结果表明,AI智能体在"大海捞针"式发现任务中尚有潜力有待挖掘——即在海量选项中定位能够解决科学难题的稀有答案。尽管信息搜索能力的提升将使智能体成为出色的研究助手(例如协助识别化合物的分子结构),研究人员也坦言,"协作战舰"仍是一个相对简单的测试场景,他们希望在更复杂的环境中测试大语言模型,让这些系统面对更多的备选方案。
Grand还计划让人类与AI模型开展协作,研究双方是否能实现优势互补。模型也可能从游戏模拟的微调训练中获益,而随着算力的增强,大语言模型将具备更强的推理能力,能够更准确地预测游戏的走向。
斯坦福大学语言学助理教授Robert Hawkins(未参与本论文研究)表示:"随着AI系统越来越具有智能体属性,最棘手的问题往往是社会性的:追踪共同认知基础、消解误解,以及随时间推移适应不同的协作伙伴。这项研究在受控的协作场景中对上述现象进行了精妙的刻画,并令人信服地指出:AI智能体真正的瓶颈不仅在于最优问题的计算,更在于充分利用答案所需的语用推理能力。"
本文论文由Grand、Pepe与两位CSAIL首席研究员共同撰写,合作者为麻省理工学院副教授Jacob Andreas和麻省理工学院教授Joshua Tenenbaum。研究工作获得了麻省理工学院Siegel家族智能探索项目、MIT-IBM沃森AI实验室、FinTechAI@CSAIL计划、斯隆研究奖学金、英特尔、美国空军科学研究办公室、美国国防高级研究计划局、海军研究办公室以及美国国家科学基金会的部分支持。该论文以口头报告形式在今年4月举办的国际学习表征大会(ICLR)上发表。
Q&A
Q1:BattleshipQA数据集是怎么建立的,有什么用途?
A:研究人员邀请40余名人类玩家参与"协作战舰"游戏,收集他们在游戏过程中提出的问题以及对应的是非题作答,由此构建了BattleshipQA数据集。这份数据集被用作基准对照,帮助研究团队评估GPT-5、Llama 4 Scout等大语言模型与人类在提问和作答方面的差距,从而找到模型的薄弱环节并加以改进。
Q2:蒙特卡洛推理策略是如何提升大语言模型提问质量的?
A:蒙特卡洛推理策略让大语言模型把每个潜在猜测视为独立粒子,在"观察员"每次给出回答后,动态调整各选项的可信权重——更合理的选项权重上升,不合理的下降。这使模型能够更有针对性地提出问题,从每次回答中挖掘出更多有用信息。以Llama 4 Scout为例,引入该策略后其对阵人类的胜率从8%大幅提升至82%,且运行成本仅为GPT-5的约1%。
Q3:将问题转化为Python代码对AI回答准确率有多大帮助?
A:效果相当显著。研究人员让大语言模型将自然语言问题自动转化为Python代码指令,明确告知模型如何核验答案(如搜索指定区域判断是否有舰船存在)。这一方法使模型的平均答题准确率提升了15%。其中轻量级模型GPT-4o-mini提升幅度最大,性能提高了近30%;大型模型Claude 4 Opus也提升了约8个百分点。
好文章,需要你的鼓励
今天讲的出海案例是明阳电气,这家输配电设备公司在马来西亚投产首个海外生产基地,并以 250 万林吉特子公司承接本地制造。
研究揭示AI搜索代理"屏蔽旧观测"策略的效果取决于检索质量与模型能力的匹配程度,存在三种截然不同的效果区间。
数学界发布《莱顿宣言》,由16位研究人员历时8个月起草,已获国际数学联盟背书。宣言指出,AI正威胁数学研究的核心价值:AI生成的错误证明难以识别、论文引用不规范、版权争议频发、科技公司主导研究议题,以及企业借新闻稿抢占话语权等问题日益严峻。宣言呼吁数学家透明披露AI使用情况,建议监管机构保护作者权利并规范AI产业,同时警告各方不要轻信科技公司对AI能力的夸大宣传。
多所高校与研究机构联合构建机器人语义接地测试平台RSB,发现主流VLA模型普遍存在"能抓但抓错"的致命缺陷,语义理解与动作生成之间存在严重断层。