在普通的蒙特卡洛树搜索 (MCTS)实现中,rollout 通常是按照统一的随机策略实现的,也就是说,它采取随机动作直到游戏结束,然后才备份收集的信息。
我已经阅读了 AlphaZero 论文(以及 AlphaGo Zero),但我没有找到任何关于如何实施推出的信息(也许我错过了)。
如何在 AlphaGo Zero 和 AlphaZero 算法中实现 MCTS 的推出?
在普通的蒙特卡洛树搜索 (MCTS)实现中,rollout 通常是按照统一的随机策略实现的,也就是说,它采取随机动作直到游戏结束,然后才备份收集的信息。
我已经阅读了 AlphaZero 论文(以及 AlphaGo Zero),但我没有找到任何关于如何实施推出的信息(也许我错过了)。
如何在 AlphaGo Zero 和 AlphaZero 算法中实现 MCTS 的推出?