Alphago 和 AlphaGo zero 使用随机对弈来生成数据并使用数据来训练 DNN。“随机下棋”是指AlphaGo基于当前DNN下出一些次优棋步的概率为正;这是出于探索和学习的目的(如果我的理解有误,请纠正我)。
在真正的比赛中,AlphaGo 还玩随机走法吗?随机播放功能是否仅在训练阶段使用?
如果 AlphaGo 在真正的比赛中没有随机走棋,那么我认为 AlphaGo 并没有在那场比赛中学习。人类玩家也有类似的“随机玩法”:他们通常会在小比赛中玩一些随机动作或奇怪的动作,只是为了测试新的策略;在重大赛事中,他们会更加认真,少打一些毫无准备的动作。
因此,一个相关且更广泛的问题是:AlphaGo 是否从它与人类实时玩的游戏中学习?
我认为第二个问题不太重要,因为 AlphaGo 的学习曲线与人类相比非常平坦:AlphaGo 从一场比赛中学习 epsilon,而人类可以学到很多东西。