据我了解,这基本上是一个有监督的学习问题,在自我游戏中,我们有与获胜者相关的游戏,并且正在训练网络将游戏状态映射到获胜的可能性。
是的,尽管这个有监督学习问题的数据是由 self-play 提供的。正如 AlphaZero 所了解的,相同位置的董事会评估需要改变,所以这是一个非平稳问题,要求 ML 随着时间的推移忘记对旧样本的训练。
网络训练在游戏的哪个部分预测获胜者?
可能所有这些,包括起始的空板。我不确定是否以这种方式评估空棋盘,但在已知玩家策略的情况下,这不仅是可行的,而且对于更简单的游戏(例如井字游戏和连线 4)在实践中可以准确地完成。
显然,仅仅五步之后,胜负尚不清楚,试图根据游戏的最终胜者预测五步后的胜者将学到一个毫无意义的功能。
一点也不。这纯粹是一个复杂和困难的问题。在如此早期的实践中,价值网络会输出一些不确定的东西,例如p=0.51玩家 1 的获胜机会。它已经学会了这样做,因为在游戏开始时自我玩的经验中,类似的位置导致玩家 1 和玩家 2 获胜的人数几乎相等。
该功能也不是没有意义,它可以用来评估前瞻搜索的结果,而不需要玩到游戏结束。它完全取代了更传统的博弈树搜索中使用的位置评估启发式方法。在实践中,由于矛盾的预测,在象棋或围棋这样复杂的事物中,非常早的位置数据不会像后来的位置评估那样有用。但是,为了保持一致性,它仍然可以在游戏算法中学习和使用。
如果只知道谁最终获胜,那么如何训练网络来理解这一点?
如果给一个监督学习技术相同的输入数据X在不同的例子上预测标签A,B,B,B,A,A,B,B,那么它应该学习p(B|X)=0.625. 这将最小化交叉熵损失函数,这就是这里发生的事情。