有(两人,完全信息)组合博弈,在博弈的任何配置下,一个获胜的举动(如果有的话)可以通过一个短程序快速计算出来。这是以下游戏的情况,从一堆匹配开始,每个玩家交替删除 1,2 或 3 匹配,直到删除最后一个的玩家获胜。Nim 游戏也是如此。
另一方面,理解围棋或国际象棋等游戏的获胜策略似乎是没有希望的。然而,一些基于机器学习的程序(如 alphaGo zero)能够“学习”复杂游戏的策略,仅使用游戏规则作为输入数据。我真的不知道这些算法是如何工作的,但这是我的模糊问题:
对于像 Nim 这样的简单游戏,这样的算法是否能够在游戏的任何获胜配置中真正找到获胜的动作?
Nim 的配置数量是无限的,但该算法在其“训练”期间将仅考虑有限数量的配置。似乎可以想象,如果这个训练阶段足够长,那么程序将能够像人类一样捕捉获胜策略。