人工智能 - 在 AlphaZero 中，数据集中保存了哪些策略，以及如何选择移动？ - 吾爱随笔录

人工智能强化学习零字母自我游戏

2021-11-15 13:17:10

我一直在研究 AlphaZero 背后的原理。尤其是这个备忘单(1) 和这个实现(2)（在 Connect 4 中）非常有用。

然而，我还有两个重要的问题：

政策网络如何更新？在 (2) 中，棋盘位置保存在元组数据集中（状态、策略、值）。该值来源于自玩游戏的结果。但是，我不确定保存了哪个策略：每一步已经播放的次数，每一步的先验概率（我猜不是），还是其他？
备忘单说（对于竞争性游戏）选择具有最大 N（= 访问次数最多）的移动。选择政策负责人计算出的概率最高的举动不是更合乎逻辑吗？

1个回答

但是，我不确定保存了哪个策略

存储来自蒙特卡洛树搜索的策略，因为我们稍后可以通过将给定状态通过网络从网络中获取策略估计，该状态用于计算交叉熵损失以更新网络的策略（与均方求和）价值头的预测与实际价值/奖励之间的误差损失）。

选择政策负责人计算出的概率最高的举动不是更合乎逻辑吗？

取决于您执行的搜索次数，经过数千次模拟后，MCTS 会提供更好的结果，因为它接近极小极大树。

其它你可能感兴趣的问题