Alphago zero 真的以 100 比 0 击败了 Alphago 吗?

人工智能 阿尔法零 阿尔法戈 确定性政策 随机策略
2021-11-14 02:39:24

tl;dr
AlphaGo 和 AlphaGo 是否重复了 100 次相同的棋盘序列,还是有 100 种不同的游戏?

背景:
Alphago 是第一个超人类围棋选手,但它有人类调整和训练。

AlphaGo 零学会了比超人更超人。它的霸权表现在它如何在 100 场比赛中完美击败 AlphaGo。

我对 AlphaGo 和 AlphaGo 的理解是它们是确定性的,而不是随机的。

如果他们是确定性的,那么给定一个棋盘位置,他们总是会采取同样的行动。

数学家计算国际象棋中可能的游戏的方式是考虑不同的棋盘位置。据我了解,我可能是错的,如果他们有完全相同的棋盘位置顺序,那么它不能算作不同的游戏。

如果他们进行相同的动作顺序 100 次,那么他们并没有玩 100 次不同的游戏,而是玩了 100 次重复的游戏。

问题:
那么,使用数学定义,AlphaGo 和 AlphaGo Zero 是只玩一种游戏进行 100 次迭代,还是玩了 100 种不同的游戏?

参考:

1个回答

AlphaGo 和 AlphaGo [零] 是重复 100 次相同的棋盘顺序,还是有 100 种不同的游戏?

有 100 种不同的游戏。您可以在此处查看 AlphaGo [Lee] 和 AlphaGo Zero 之间的一些示例游戏它们显然都是不同的。

问题中的这句话显示了一个误解:

我对 AlphaGo 和 AlphaGo [零] 的理解是它们是确定性的,而不是随机的。

用于 AlphaGo 和 Alpha Zero 中的前瞻规划蒙特卡洛树搜索 (MCTS)算法本质上是随机的。它通过在所有分支点进行加权随机选择,从围棋等游戏中的巨大可能性树中采样。这意味着游戏可以在两个这样的代理人相互对抗的情况下随机进行,因为许多棋盘状态将决定在“最佳”动作之间半随机选择,这些动作将由每个代理人在非常长的搜索时间的限制下非常接近地排名。

虽然这解决了您问题的主要观点,但值得注意的是,自我对弈算法可能会产生相关影响,即使它们是部分随机的。也就是说,有可能有一个智能体偶然发展了一个特定的弱点,另一个智能体一直在利用,这样智能体 A 总是击败智能体 B,并且每次都以非常相似的方式获胜(可能是确定性的,可能是跨越一系列不同的游戏都有类似的错误)。但是,也可能出现以下情况:

  • 总的来说,这两个代理都不强。

  • 另一个代理 C 可以持续击败 B,但会持续输给 A。如果没有进一步的测量,就没有明确的方法来对代理 A、B 和 C 进行排名。

因此,通过自我比赛训练的特工确实需要针对广泛的对手进行训练和测试,以验证这种情况没有发生,并且技能水平评估更普遍有效。我相信这是通过 DeepMind 构建的所有 AlphaGo 变体完成的。

MCTS 算法在这种情况下确实有一点帮助,因为它可以纠正训练有素的神经网络如何评估早期棋盘位置的弱点。MCTS 的前瞻性规划使初始评级与最终行动选择的相关性降低 - 它有效地使用来自当前位置的样本来细化那些学习评级。