在 AlphaZero 中,数据集中保存了哪些策略,以及如何选择移动?

人工智能 强化学习 零字母 自我游戏
2021-11-15 13:17:10

我一直在研究 AlphaZero 背后的原理。尤其是这个备忘单(1) 和这个实现(2)(在 Connect 4 中)非常有用。

然而,我还有两个重要的问题:

  1. 政策网络如何更新?在 (2) 中,棋盘位置保存在元组数据集中(状态、策略、值)。该值来源于自玩游戏的结果。但是,我不确定保存了哪个策略:每一步已经播放的次数,每一步的先验概率(我猜不是),还是其他?

  2. 备忘单说(对于竞争性游戏)选择具有最大 N(= 访问次数最多)的移动。选择政策负责人计算出的概率最高的举动不是更合乎逻辑吗?

1个回答

但是,我不确定保存了哪个策略

存储来自蒙特卡洛树搜索的策略,因为我们稍后可以通过将给定状态通过网络从网络中获取策略估计,该状态用于计算交叉熵损失以更新网络的策略(与均方求和)价值头的预测与实际价值/奖励之间的误差损失)。

选择政策负责人计算出的概率最高的举动不是更合乎逻辑吗?

取决于您执行的搜索次数,经过数千次模拟后,MCTS 会提供更好的结果,因为它接近极小极大树。