模型能否在已解决的游戏中获得 100% 的准确率?

人工智能 机器学习 函数逼近
2021-10-22 14:27:37

我今天有一个问题,我觉得它必须已经有了答案,所以我到处逛逛。

如果我们要求一个模型学习二元 OR 函数,我们对每个模型都获得了完美的准确性(据我所知)。

如果我们要求一个模型学习 XOR 函数,我们会得到一些模型的完美准确度和其他模型的近似值(例如感知器)。

这是由于感知器的设计方式——这是算法无法学习的表面。但同样,使用多层神经网络,我们可以获得 100% 的准确率。

那么我们也可以完美地学习一个已解决的游戏吗?

井字游戏是一种已解决的游戏;在游戏的每个状态下,双方玩家都存在一个最优的移动。所以理论上我们的模型可以学习井字游戏,也可以学习逻辑函数,对吧?

1个回答

那么我们也可以完美地学习一个已解决的游戏吗?

简短的回答是肯定的。如果您的模型具有足够的复杂性,理论上它可以学习您想要的任何行为。

所以理论上我们的模型可以学习井字游戏

井字游戏已经解决了。另一个由 Chinook 算法解决的流行游戏是 Checkers。

更具体地说,在强化学习中,我们假设任何决策过程都可以建模为 MDP(马尔可夫决策过程)。一旦到了那里,就会有许多不同的方法,比如 Q-Learning 和 TD,它们在理论上会收敛到最优策略——完美发挥的那个。

现在,仅仅因为它在理论上是可能的,并不意味着它在经验上总是有效的。在非常复杂且状态空间很大的游戏中,完美解决是极其困难的。这是因为解决它们的唯一可行方法是近似并因此即使在很小的边缘情况下也能获得完美的发挥变得更加困难。

如果您想了解有关此主题的更多信息,我强烈推荐David Silver 的这一系列 RL 课程