价值网络在游戏的哪一部分被训练来预测获胜者?

人工智能 机器学习 强化学习 阿尔法戈 零字母 阿尔法零
2021-10-22 11:25:35

Alpha Zero(以及 AlphaGo Zero)论文称,他们通过在许多自我对弈游戏中“最小化预测获胜者和游戏获胜者之间的误差”来训练网络的价值主管。据我所知,没有提供进一步的信息。

据我了解,这基本上是一个有监督的学习问题,从自我游戏中,我们有与他们的获胜者相关的游戏,并且正在训练网络将游戏状态映射到获胜的可能性。我的理解使我想到以下问题:

网络训练在游戏的哪个部分预测获胜者?

显然,仅仅五步之后,胜负尚不清楚,试图根据游戏最终的胜者来预测五步后的胜者将学到一个毫无意义的功能。随着游戏的进行,它会从最初的平局到最后的胜利。

网络是如何被训练来理解的,如果它被告知的是最终谁赢了?

2个回答

据我了解,这基本上是一个有监督的学习问题,在自我游戏中,我们有与获胜者相关的游戏,并且正在训练网络将游戏状态映射到获胜的可能性。

是的,尽管这个有监督学习问题的数据是由 self-play 提供的。正如 AlphaZero 所了解的,相同位置的董事会评估需要改变,所以这是一个非平稳问题,要求 ML 随着时间的推移忘记对旧样本的训练。

网络训练在游戏的哪个部分预测获胜者?

可能所有这些,包括起始的空板。我不确定是否以这种方式评估空棋盘,但在已知玩家策略的情况下,这不仅是可行的,而且对于更简单的游戏(例如井字游戏和连线 4)在实践中可以准确地完成。

显然,仅仅五步之后,胜负尚不清楚,试图根据游戏的最终胜者预测五步后的胜者将学到一个毫无意义的功能。

一点也不。这纯粹是一个复杂和困难的问题。在如此早期的实践中,价值网络会输出一些不确定的东西,例如p=0.51玩家 1 的获胜机会。它已经学会了这样做,因为在游戏开始时自我玩的经验中,类似的位置导致玩家 1 和玩家 2 获胜的人数几乎相等。

该功能也不是没有意义,它可以用来评估前瞻搜索的结果,而不需要玩到游戏结束。完全取代了更传统的博弈树搜索中使用的位置评估启发式方法。在实践中,由于矛盾的预测,在象棋或围棋这样复杂的事物中,非常早的位置数据不会像后来的位置评估那样有用。但是,为了保持一致性,它仍然可以在游戏算法中学习和使用。

如果只知道谁最终获胜,那么如何训练网络来理解这一点?

如果给一个监督学习技术相同的输入数据X在不同的例子上预测标签A,B,B,B,A,A,B,B,那么它应该学习p(B|X)=0.625. 这将最小化交叉熵损失函数,这就是这里发生的事情。

游戏的哪一部分是训练来预测获胜者的网络

位置评价。如何为国际象棋位置提供静态分数。