人工智能 - 蒙特卡洛树搜索应该能够在连接四游戏中持续击败我吗？ - 吾爱随笔录

蒙特卡洛树搜索应该能够在连接四游戏中持续击败我吗？

人工智能机器学习强化学习蒙特卡罗树搜索

2021-11-02 10:53:25

我已经为我构建的连接四游戏实现了蒙特卡洛树搜索 (MCTS) 算法。MCTS 代理在 90-100% 的情况下击败了随机选择代理，但我仍然能够轻松击败它。它甚至错过了明显的连续三个机会，它只需要再添加一个令牌即可获胜（但将其放在其他地方）。

这是正常行为，还是 MCTS 特工也能持续击败我？在让它返回其选择的动作之前，我允许它长出它的树 2 秒钟——它可能需要更长的时间思考吗？

1个回答

你不应该让树只生长两秒钟，而应该使用等于 1000 或类似的模拟数。我使用等于 10000 的模拟数在 tictactoe 游戏中进行单步操作，这对我来说效果很好。此外，在代理选择移动后，您不必从头开始统计（N = 访问次数，V = 预期奖励，U = UCT 分数），您可以使用当前统计信息并将根节点替换为选择的节点。

其它你可能感兴趣的问题

上一篇雅达利的 MuZero 中的动作表现如何？下一篇为什么纯 KG 嵌入方法不能发现多跳关系路径？