根据DeepMind 的一篇博客文章,AlphaZero 并没有真正推出。
AlphaGo Zero 不使用“rollouts”——其他围棋程序使用的快速随机游戏来预测哪个玩家将从当前棋盘位置获胜。相反,它依靠其高质量的神经网络来评估位置。
相反,我假设它只是通过 NN 值头部结果来解释给定状态下的获胜者。这取代了推出。因此节省的计算时间可以用于许多扩展。然后,从根节点评估状态将是从 MCTS 中的访问计数得出的最佳操作,这仅基于 NN 值头的预测。(没有当前分数,没有政策?)
对于策略,我的意思是 NN 的策略头(softmax)。
这是否意味着 NN 策略仅用于损失计算而不用于其他任何地方?