谷歌DeepMind的Alpha系列游戏AI曾被认为找到了攻克任何游戏的方法,通过自我对弈训练掌握了象棋和围棋等复杂游戏。然而,随着人们发现围棋中某些局面能被相对新手击败,却容易击败类似的围棋AI,一些奇怪的现象开始出现。
虽然在棋类游戏中击败AI看似微不足道,但这能帮助我们识别AI的失效模式,或改进训练方法以避免这些盲点的产生。随着人们在越来越多问题上依赖AI输入,这些问题可能变得至关重要。
最近发表在《机器学习》期刊的一篇论文描述了一整类游戏,在这些游戏中,用于训练AlphaGo和AlphaChess的方法会失效。这类游戏可能极其简单,研究人员以Nim游戏为例:这是一个双人游戏,玩家轮流从金字塔形棋盘上移除火柴棍,直到某一方无法进行合法移动为止。
公平性游戏的特征
Nim游戏设置多排火柴棍,顶排有一根火柴,下面每排比上一排多两根,形成金字塔形棋盘。两名玩家轮流从棋盘移除火柴棍,选择一排然后移除一根到整排的任意数量。游戏持续到没有合法移动为止。这是一个可以轻松教给儿童的简单游戏。
这也是"公平游戏"整个规则类别的关键例子。这类游戏不同于象棋等游戏,象棋中每个玩家有自己的棋子;在公平游戏中,两个玩家共享相同棋子并受相同规则约束。Nim的重要性源于一个定理,表明公平游戏中的任何局面都可以用Nim金字塔的配置来表示。这意味着适用于Nim的规律适用于所有公平游戏。
Nim和其他公平游戏的独特特征之一是,在游戏的任何时刻,都很容易评估棋盘并确定哪个玩家有获胜潜力。换句话说,你可以评估棋盘并知道,如果从那时起进行最优移动,你很可能获胜。这只需要将棋盘配置输入奇偶性函数,该函数会计算并告诉你是否处于获胜状态。
显然,目前获胜的玩家可能进行次优移动而最终失败。确切的最优移动序列要到游戏结束才能确定,因为这取决于对手的具体行动。
这项由Bei Zhou和Soren Riis完成的新研究提出了一个简单问题:如果采用AlphaGo的训练方法来训练AI玩游戏,尝试开发Nim游戏AI会发生什么?换句话说:他们询问AI是否能纯粹通过在Nim中自我对弈来开发奇偶性函数的表示。
自我训练的失败
象棋版本AlphaZero仅从象棋规则开始训练。通过自我对弈,它可以将不同棋盘配置与获胜概率关联起来。为了避免陷入僵局,还有随机采样元素允许它继续探索新领域。一旦能识别有限数量的高价值移动,它就能更深入地探索这些移动产生的未来可能性。游戏次数越多,它为给定位置可能产生的潜在棋盘配置分配价值的概率就越高,尽管更多游戏的益处在足够次数后趋于递减。
在Nim游戏中,给定棋盘配置的最优移动数量有限。如果不进行其中之一,就等于将控制权让给对手,如果对手只进行最优移动就能获胜。同样,最优移动可以通过评估数学奇偶性函数来识别。
因此,有理由认为对象棋有效的训练过程可能对Nim无效。令人惊讶的是它的表现有多糟糕。Zhou和Riis发现,对于五排的Nim棋盘,AI很快变得优秀,在500次训练迭代后仍在改进。然而,仅仅增加一排就导致改进速度显著放缓。对于七排棋盘,在AI自我对弈500次时,性能提升基本已经停止。
为了更好地说明这个问题,研究人员将建议潜在移动的子系统替换为随机操作的系统。在七排Nim棋盘上,经过500次训练后,训练版本和随机版本的性能无法区分。基本上,一旦棋盘足够大,系统就无法从观察游戏结果中学习。七排配置的初始状态有三种潜在移动都与最终获胜一致。然而,当要求他们系统的训练移动评估器检查所有潜在移动时,它将每个移动都评估为大致等价。
研究人员得出结论,Nim要求玩家学习奇偶性函数才能有效游戏。而在象棋和围棋中表现良好的训练程序无法做到这一点。
不仅仅是Nim
一种观点是Nim,以及所有公平游戏,只是很奇怪。但Zhou和Riis也发现了类似问题可能在以这种方式训练的象棋AI中出现的迹象。他们识别出几个"错误"的象棋移动,这些移动错过了将死攻击或搞砸了残局,最初被AI的棋盘评估器高度评价。只有因为软件在未来几步中采用了多个额外分支,它才能避免这些失误。
对于许多Nim棋盘配置,通往获胜的最优分支必须一直推演到游戏结束才能证明其价值,因此这种避免潜在失误的方法更难管理。他们注意到象棋棋手发现了需要长链移动的将死组合,象棋软件经常完全错过。他们认为问题不在于象棋没有相同问题,而是类似Nim的棋盘配置在象棋中通常很少见。可能类似的情况也适用于围棋,正如该游戏中AI奇怪弱点所说明的。
Zhou和Riis认为:"AlphaZero擅长通过关联学习,但当问题需要无法从游戏状态和结果之间的相关性中隐式学习的符号推理形式时就会失败。"换句话说,即使管理游戏的规则能够为决定做什么提供简单规则,我们也不能期望Alpha式训练使AI能够识别它们。结果是他们所称的"有形的、灾难性的失效模式"。
这为什么重要?许多人正在探索AI在数学问题上的实用性,这些问题通常需要从棋盘配置推断到奇偶性函数等一般规则所涉及的符号推理。虽然如何训练AI做到这一点可能并不明显,但了解哪些方法明显不起作用是有用的。
Q&A
Q1:什么是公平游戏?它与象棋有什么区别?
A:公平游戏是指两个玩家共享相同棋子并受相同规则约束的游戏,如Nim游戏。这与象棋不同,象棋中每个玩家有自己独立的棋子集合。公平游戏的任何局面都可以用Nim金字塔配置来表示。
Q2:为什么AlphaGo的训练方法在Nim游戏中会失败?
A:因为Nim游戏需要学习奇偶性函数来有效游戏,这需要符号推理能力。而AlphaZero擅长通过关联学习,无法从游戏状态和结果的相关性中隐式学习这种符号推理形式,导致在棋盘规模增大时性能急剧下降。
Q3:这个发现对AI发展有什么意义?
A:这揭示了AI的一个重要盲点:无法掌握需要符号推理的问题。随着AI在数学问题等需要符号推理的领域应用增多,了解哪些训练方法明显无效变得很重要,这有助于改进AI训练方法并避免类似的失效模式。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。