博弈论中，通用算法有时胜过专用算法

MIT研究人员联合多所高校开展的一项研究发现，在不完全信息博弈场景中，通用的策略梯度算法（Policy Gradient Methods）表现优于传统专用博弈论算法。研究团队开发了一套基准测试工具，可在普通笔记本电脑上运行，用于评估神经网络在双人零和博弈中的表现。实验涵盖幻影井字棋、Hex变体及骰子欺诈等五类游戏，结果显示通用算法在可利用性指标上全面领先，相关成果已在ICLR 2025上发表。

在博克游戏或房产竞价等场景中，参与者往往面临信息不对称的困境——你知道自己手中的牌，却不知道对手的底牌。MIT研究人员近期发表的一篇论文，为这类"不完全信息博弈"提供了新的研究视角，该论文于今年4月在里约热内卢举办的国际学习表征会议上正式发布。

论文聚焦于两名参与者之间的"零和博弈"，即一方所得必然等于另一方所失。参与该研究的MIT成员包括：电气工程与计算机科学系（EECS）及信息与决策系统实验室（LIDS）的博士生Sobhan Mohammadpour，以及EECS助理教授、LIDS首席研究员Gabriele Farina。此外，奥斯汀德克萨斯大学的Max Rudolph、加州大学伯克利分校的Nathan Lichtlé与Alexandre Bayen、卡内基梅隆大学的J. Zico Kolter与Samuel Sokota、纽约大学的Eugene Vinitsky，以及德克萨斯大学的Amy X. Zhang也参与了合作。

研究的核心是探讨用于训练神经网络参与不完全信息博弈的算法。长期以来，业界普遍认为，基于博弈论原理的专用算法在此类场景中必然优于通用算法——即诞生于20世纪90年代的"策略梯度方法"。所谓"策略"即决策方案，"梯度"则指向变化最大的方向，如同登山时选择最陡的坡路。策略梯度方法通过不断调整，引导智能体一步步逼近既定目标。

尽管策略梯度方法在被提出之初并非针对博弈场景设计，研究团队仍对其在双人博弈中的表现产生了浓厚兴趣。Farina指出，在多智能体环境下，这类方法的分析难度大幅提升："虽然仍存在可优化的方向，但由于对手行为的影响，这一方向会在博弈过程中持续、快速地变化。"

Sokota表示："过去大家理所当然地认为，专用博弈论算法才是正确选择。但我们的研究发现，策略梯度方法的表现可以超越这些专用算法，而专用算法的效果也未必如人们预期的那样好。这引发了一个有趣的问题：为何这一现象长期未被察觉？部分原因在于，该领域此前缺乏对算法进行严格评估所需的工程工作，难以判断哪种算法真正有效。"

因此，本研究的重要贡献之一，是提供了一套公平评估各类算法的基准测试框架——这些算法的作用是训练智能体（即神经网络）参与不完全信息博弈。Rudolph解释道："我们采取了不同的思路。我们不是提出一种新算法来击败其他算法，而是提出一套能够评估这些算法的基准。"

基准测试本质上是一套用于评估算法性能的软件。Farina说："我们提供的是一个测试场或竞技场，让研究人员带着自己的算法来，针对特定任务进行训练，并检验其表现。"

团队以"可被利用性"这一概念衡量参与者的表现，即玩家面对"最强对手"时的得分情况。Sokota解释道："在扑克这样的游戏中，这位对手虽然不知道我手中的牌，却了解我在任何给定手牌下的行为模式。"可被利用性得分为零意味着完美博弈，得分越高则表示策略越不优化。

团队共进行了五款游戏的实验：两个版本的"幽灵井字棋"（玩家无法看到对手的落子）、两个不完全信息版本的棋盘游戏"六边棋"，以及一款名为"骰子骗局"的欺骗类游戏。

研究面临的最大挑战，是如何将可被利用性指标应用于规模达300亿个状态的博弈场景。这里的"状态"不仅涵盖所有可能的棋盘布局，还包含游戏的完整历史，即每一步的行动与失误。

Mohammadpour将其比喻为："就像走进一间堆满物品的黑暗房间，你需要在什么都看不见的情况下，弄清楚每件物品的位置以及它们是如何到达那里的。"他补充道，此前研究者通常只将可被利用性指标用于规模比本研究小约10万倍的博弈场景。

实验结果显示，在这五款游戏中，使用策略梯度算法训练的神经网络，其可被利用性得分优于（即更低于）使用博弈论算法训练的网络。在随后的直接对抗赛中，策略梯度训练的网络再度胜出。Rudolph表示："这些结果令人振奋，进一步增强了我们对基准测试方法的信心。"

团队已将基准测试软件免费开放，并确保其易于使用。Mohammadpour说："你不需要超级计算机，普通笔记本电脑就能运行。只需在OpenSpiel这一常用基准测试工具库中添加一行代码即可。"

Farina希望将这项研究置于更广泛的背景下理解："'博弈'这一概念适用于任何多智能体之间的策略性交互，因此这项研究的意义绝不局限于娱乐性游戏。"

Vinitsky对此表示认同："信息隐藏是现实世界中一种极为普遍的现象，它渗透于军事行动、交易场景、谈判协商等诸多领域。如果我们能在博弈中取得改进，就意味着在这些实际场景中同样有更大的提升空间。"

未参与本研究的谷歌DeepMind计算机科学家及博弈论专家Ian Gemp对上述结果表示赞许，他评价道："这项研究有力地提醒我们，对策略梯度方法等经典工具进行现代化改造，依然是解决复杂策略问题的高效路径。"

Q&A

Q1：什么是"可被利用性"指标，如何衡量博弈中的玩家表现？

A：可被利用性衡量的是玩家面对"最强对手"时的得分情况。在扑克游戏中，这位对手虽然不知道玩家手中的具体牌面，但了解玩家在每种手牌下的行为模式。可被利用性得分为零代表完美博弈策略，得分越高则说明策略越不优化。本研究将这一指标首次应用于规模高达300亿个状态的复杂博弈场景，远超此前研究的规模边界。

Q2：策略梯度方法为何能在不完全信息博弈中超越专用博弈论算法？

A：策略梯度方法通过不断调整决策方向，引导智能体逐步逼近最优目标。虽然在多智能体环境下，对手行为会使优化方向持续变化，但实验结果表明，经过现代化改造的策略梯度方法在五款测试游戏中，可被利用性得分均优于专用博弈论算法训练的网络，并在直接对抗赛中取得胜利。研究者认为，此前该现象未被发现，主要是因为领域内缺乏严格的算法评估工程基础。

Q3：MIT团队开发的基准测试框架有什么特点，普通研究者能使用吗？

A：该基准测试框架已免费开放，无需超级计算机，普通笔记本电脑即可运行。研究人员只需在OpenSpiel这一常用基准测试工具库中添加一行代码，即可针对特定任务对算法进行训练和评估。该框架的核心价值在于提供了一套公平、统一的算法评估标准，而非推出新算法，是目前该领域首个能处理300亿量级状态博弈的基准测试工具。

来源：MIT News

0赞

好文章，需要你的鼓励

博弈论中，通用算法有时胜过专用算法

来源：MIT News

2026

07/02

15:35

分享

点赞

电动自行车的功过之辩：被忽视的那一面

Neo：印度科技大亨自掏3000万美元，打造微软Office的AI替代品

AI数据中心如何获得电网接入资格？公用事业公司的规划逻辑解析

Brookfield与Bloom能源将融资规模扩至250亿美元，押注AI数据中心独立供电

当CIO的技术提案遭到否决，该如何应对？

这款谷歌实验室 AI 应用如何成为我每日必用的工具

起亚EV5推出Storm特别版并新增全轮驱动选项

Meta效仿SpaceX，将过剩AI算力变现

Gemini Spark智能体登陆Mac，新增多项功能升级

Venice AI完成6500万美元A轮融资，估值达10亿美元

Anthropic Claude模型解除出口限制，全球发布重启

自动驾驶热潮卷土重来，Humble Robotics剑指货运领域

麻省理工引领新浪潮：马萨诸塞州的科技领导力

麻省理工与微软联合研发系统大幅提升AI智能体工作流效率

麻省理工学院媒体报道：好奇心驱动的科学研究是美国成功的关键要素

David Autor出任MIT经济系主任，聚焦AI对劳动力市场的研究

超越数据驱动美学：计算与审美判断的探索

智能体AI的现状与未来：MIT教授深度解析

MIT校长：好奇心驱动的研究是美国未来250年创新的根基

Palantir CEO猛烈抨击AI行业：Token定价是"财富税"

Meta与Oracle的布局揭示数据中心经济学新趋势

SpaceX疑似向投资者展示AI手持设备原型，马斯克否认

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

《AI启示录》新华三《数字化领航》AI系列专刊

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: