如何在 AlphaGo Zero 和 AlphaZero 算法中实现 MCTS 的推出?

人工智能 蒙特卡罗树搜索 零字母 执行 阿尔法零
2021-11-16 08:34:42

在普通的蒙特卡洛树搜索 (MCTS)实现中,rollout 通常是按照统一的随机策略实现的,也就是说,它采取随机动作直到游戏结束,然后才备份收集的信息。

我已经阅读了 AlphaZero 论文(以及 AlphaGo Zero),但我没有找到任何关于如何实施推出的信息(也许我错过了)。

如何在 AlphaGo Zero 和 AlphaZero 算法中实现 MCTS 的推出?

0个回答
没有发现任何回复~