在博克游戏或房产竞价等场景中,参与者往往面临信息不对称的困境——你知道自己手中的牌,却不知道对手的底牌。MIT研究人员近期发表的一篇论文,为这类"不完全信息博弈"提供了新的研究视角,该论文于今年4月在里约热内卢举办的国际学习表征会议上正式发布。
论文聚焦于两名参与者之间的"零和博弈",即一方所得必然等于另一方所失。参与该研究的MIT成员包括:电气工程与计算机科学系(EECS)及信息与决策系统实验室(LIDS)的博士生Sobhan Mohammadpour,以及EECS助理教授、LIDS首席研究员Gabriele Farina。此外,奥斯汀德克萨斯大学的Max Rudolph、加州大学伯克利分校的Nathan Lichtlé与Alexandre Bayen、卡内基梅隆大学的J. Zico Kolter与Samuel Sokota、纽约大学的Eugene Vinitsky,以及德克萨斯大学的Amy X. Zhang也参与了合作。
研究的核心是探讨用于训练神经网络参与不完全信息博弈的算法。长期以来,业界普遍认为,基于博弈论原理的专用算法在此类场景中必然优于通用算法——即诞生于20世纪90年代的"策略梯度方法"。所谓"策略"即决策方案,"梯度"则指向变化最大的方向,如同登山时选择最陡的坡路。策略梯度方法通过不断调整,引导智能体一步步逼近既定目标。
尽管策略梯度方法在被提出之初并非针对博弈场景设计,研究团队仍对其在双人博弈中的表现产生了浓厚兴趣。Farina指出,在多智能体环境下,这类方法的分析难度大幅提升:"虽然仍存在可优化的方向,但由于对手行为的影响,这一方向会在博弈过程中持续、快速地变化。"
Sokota表示:"过去大家理所当然地认为,专用博弈论算法才是正确选择。但我们的研究发现,策略梯度方法的表现可以超越这些专用算法,而专用算法的效果也未必如人们预期的那样好。这引发了一个有趣的问题:为何这一现象长期未被察觉?部分原因在于,该领域此前缺乏对算法进行严格评估所需的工程工作,难以判断哪种算法真正有效。"
因此,本研究的重要贡献之一,是提供了一套公平评估各类算法的基准测试框架——这些算法的作用是训练智能体(即神经网络)参与不完全信息博弈。Rudolph解释道:"我们采取了不同的思路。我们不是提出一种新算法来击败其他算法,而是提出一套能够评估这些算法的基准。"
基准测试本质上是一套用于评估算法性能的软件。Farina说:"我们提供的是一个测试场或竞技场,让研究人员带着自己的算法来,针对特定任务进行训练,并检验其表现。"
团队以"可被利用性"这一概念衡量参与者的表现,即玩家面对"最强对手"时的得分情况。Sokota解释道:"在扑克这样的游戏中,这位对手虽然不知道我手中的牌,却了解我在任何给定手牌下的行为模式。"可被利用性得分为零意味着完美博弈,得分越高则表示策略越不优化。
团队共进行了五款游戏的实验:两个版本的"幽灵井字棋"(玩家无法看到对手的落子)、两个不完全信息版本的棋盘游戏"六边棋",以及一款名为"骰子骗局"的欺骗类游戏。
研究面临的最大挑战,是如何将可被利用性指标应用于规模达300亿个状态的博弈场景。这里的"状态"不仅涵盖所有可能的棋盘布局,还包含游戏的完整历史,即每一步的行动与失误。
Mohammadpour将其比喻为:"就像走进一间堆满物品的黑暗房间,你需要在什么都看不见的情况下,弄清楚每件物品的位置以及它们是如何到达那里的。"他补充道,此前研究者通常只将可被利用性指标用于规模比本研究小约10万倍的博弈场景。
实验结果显示,在这五款游戏中,使用策略梯度算法训练的神经网络,其可被利用性得分优于(即更低于)使用博弈论算法训练的网络。在随后的直接对抗赛中,策略梯度训练的网络再度胜出。Rudolph表示:"这些结果令人振奋,进一步增强了我们对基准测试方法的信心。"
团队已将基准测试软件免费开放,并确保其易于使用。Mohammadpour说:"你不需要超级计算机,普通笔记本电脑就能运行。只需在OpenSpiel这一常用基准测试工具库中添加一行代码即可。"
Farina希望将这项研究置于更广泛的背景下理解:"'博弈'这一概念适用于任何多智能体之间的策略性交互,因此这项研究的意义绝不局限于娱乐性游戏。"
Vinitsky对此表示认同:"信息隐藏是现实世界中一种极为普遍的现象,它渗透于军事行动、交易场景、谈判协商等诸多领域。如果我们能在博弈中取得改进,就意味着在这些实际场景中同样有更大的提升空间。"
未参与本研究的谷歌DeepMind计算机科学家及博弈论专家Ian Gemp对上述结果表示赞许,他评价道:"这项研究有力地提醒我们,对策略梯度方法等经典工具进行现代化改造,依然是解决复杂策略问题的高效路径。"
Q&A
Q1:什么是"可被利用性"指标,如何衡量博弈中的玩家表现?
A:可被利用性衡量的是玩家面对"最强对手"时的得分情况。在扑克游戏中,这位对手虽然不知道玩家手中的具体牌面,但了解玩家在每种手牌下的行为模式。可被利用性得分为零代表完美博弈策略,得分越高则说明策略越不优化。本研究将这一指标首次应用于规模高达300亿个状态的复杂博弈场景,远超此前研究的规模边界。
Q2:策略梯度方法为何能在不完全信息博弈中超越专用博弈论算法?
A:策略梯度方法通过不断调整决策方向,引导智能体逐步逼近最优目标。虽然在多智能体环境下,对手行为会使优化方向持续变化,但实验结果表明,经过现代化改造的策略梯度方法在五款测试游戏中,可被利用性得分均优于专用博弈论算法训练的网络,并在直接对抗赛中取得胜利。研究者认为,此前该现象未被发现,主要是因为领域内缺乏严格的算法评估工程基础。
Q3:MIT团队开发的基准测试框架有什么特点,普通研究者能使用吗?
A:该基准测试框架已免费开放,无需超级计算机,普通笔记本电脑即可运行。研究人员只需在OpenSpiel这一常用基准测试工具库中添加一行代码,即可针对特定任务对算法进行训练和评估。该框架的核心价值在于提供了一套公平、统一的算法评估标准,而非推出新算法,是目前该领域首个能处理300亿量级状态博弈的基准测试工具。
好文章,需要你的鼓励
跑分只是基准,情绪才是真相。我们整理了 1500 条海外开发者对 GLM-5.2 的评价,发现这个号称能“平替顶级闭源模型”的开源巨兽,最大的争议点竟然是“硬件成本”。当部署一个模型需要“一套房”时,你还愿意本地化吗?
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。
电动自行车频繁出现在负面新闻中——危险骑行、电池火灾、立法管制。这些问题确实存在,需要通过教育、执法和安全标准加以解决。但更大的图景常被忽视:数百万人因此骑车通勤、重拾运动、减少开车,带来健康、减排和出行独立性等多重效益。研究也表明,电动自行车骑行具有显著心肺锻炼价值。正如汽车不能只以醉驾定义,电动自行车也不应仅凭最坏案例被评判。
清华大学提出VG-GUI-Bench评测视频引导操作能力,并设计TASKER关键帧搜索算法,在视频问答和GUI智能体任务上均实现性能与效率的双重提升。