AlphaZero 的训练中没有推出是什么意思?

人工智能 强化学习 零字母
2021-10-25 09:35:48

根据DeepMind 的一篇博客文章,AlphaZero 并没有真正推出。

AlphaGo Zero 不使用“rollouts”——其他围棋程序使用的快速随机游戏来预测哪个玩家将从当前棋盘位置获胜。相反,它依靠其高质量的神经网络来评估位置。

相反,我假设它只是通过 NN 值头部结果来解释给定状态下的获胜者。这取代了推出。因此节省的计算时间可以用于许多扩展。然后,从根节点评估状态将是从 MCTS 中的访问计数得出的最佳操作,这仅基于 NN 值头的预测。(没有当前分数,没有政策?)

对于策略,我的意思是 NN 的策略头(softmax)。

这是否意味着 NN 策略仅用于损失计算而不用于其他任何地方?

1个回答

TL;DR: Alpha Zero 完全从 MCTS 中移除了 rollout,只使用了当前的 DNN 估计值。


单个深度神经网络有 2 个头:

  • 一个价值头(为每个州分配一个分数)。
  • 还有一个策略负责人(预测所有可能动作的得分)。

它不是通过推出来确定结果,而是使用 DNN 估计,因此不需要探索太深。

通过依赖 DNN,MCTS 变得更加简单:

  • 每个动作的概率是先前获得的 Policy Head 的简单归一化。
  • 选择选择具有“低计数、高移动概率和高价值”的移动
  • 扩展由 DNN 完成,输出ValuePolicy
  • 推出模拟:不再需要。
  • 反向传播使用 DNN 的值(而不是推出结果)更新节点。

来源