人工智能 - 为什么围棋冠军在赢得第四局后，最后一场与AlphaGo的对局没有胜出？ - 吾爱随笔录

为什么围棋冠军在赢得第四局后，最后一场与AlphaGo的对局没有胜出？

人工智能强化学习游戏-ai 蒙特卡罗树搜索阿尔法戈

2021-11-07 05:37:11

在关于这场比赛的纪录片中，据说AlphaGo在输掉第4局后强势回归，开始以一种奇怪的方式（不像人类）下棋，几乎不可能被打败。为什么以及如何发生？

1个回答

AlphaGo 使用的技术是“蒙特卡洛树搜索”，结合了训练有素的神经网络。该网络的工作是估计不同棋盘状态和移动的质量。这种估计是确定性的。如果你在两个不同的场合向 AlphaGo 展示同一个棋盘，它会认为它在两个场合都一样好（或坏）。

然而，蒙特卡洛树搜索是一种随机算法。因此，作为一个简化的解释，AlphaGo 决定走哪步棋的方式是：

看看现在的板子。
选择一个随机动作，想象如果你做出这个动作，棋盘会是什么样子。
为你的对手选择一个随机动作，想象如果他们做出这个动作，棋盘会是什么样子。
继续执行第 2 步和第 3 步一段时间，这样我们就可以想象将来在某个棋盘上沿着随机的游戏路线进行许多移动。
询问神经网络这个棋盘状态有多好。
多次重复步骤 1-5。然后采取任何行动导致平均最好的比赛路线，现在就做出。

这意味着，AlphaGo 不会总是以同样的方式下棋，因为它实际上并没有明确地考虑每一步棋。它只是考虑足够多的打法，以便对一个动作是否比另一个动作更好充满信心。这实际上与人类玩此类游戏的大部分中间方式并没有太大差别。

所以，在第 4 场比赛中，Sedol 基本上是幸运的。AlphaGo 选择查看的随机游戏路线并没有捕捉到关于一个或多个棋盘状态的一些关键事实。这导致它犯了一个错误。如果你要求它再次玩同一个游戏，它可能不会犯同样的错误（它可能会考虑不同的随机游戏路线，这确实抓住了它在第一场游戏中错过的关键事实）。此外，它可能会选择在其他动作上略有不同，这可能会对游戏的其余部分产生重大影响。这两个因素阻止了世石简单地重新玩第 4 场比赛。

其它你可能感兴趣的问题

上一篇为什么全卷积网络可以接受任意大小的图像？下一篇具有长期奖励和固定状态和动作的强化学习