tl;dr
AlphaGo 和 AlphaGo 是否重复了 100 次相同的棋盘序列,还是有 100 种不同的游戏?
背景:
Alphago 是第一个超人类围棋选手,但它有人类调整和训练。
AlphaGo 零学会了比超人更超人。它的霸权表现在它如何在 100 场比赛中完美击败 AlphaGo。
我对 AlphaGo 和 AlphaGo 的理解是它们是确定性的,而不是随机的。
如果他们是确定性的,那么给定一个棋盘位置,他们总是会采取同样的行动。
数学家计算国际象棋中可能的游戏的方式是考虑不同的棋盘位置。据我了解,我可能是错的,如果他们有完全相同的棋盘位置顺序,那么它不能算作不同的游戏。
如果他们进行相同的动作顺序 100 次,那么他们并没有玩 100 次不同的游戏,而是玩了 100 次重复的游戏。
问题:
那么,使用数学定义,AlphaGo 和 AlphaGo Zero 是只玩一种游戏进行 100 次迭代,还是玩了 100 种不同的游戏?
参考: