我已经为我构建的连接四游戏实现了蒙特卡洛树搜索 (MCTS) 算法。MCTS 代理在 90-100% 的情况下击败了随机选择代理,但我仍然能够轻松击败它。它甚至错过了明显的连续三个机会,它只需要再添加一个令牌即可获胜(但将其放在其他地方)。
这是正常行为,还是 MCTS 特工也能持续击败我?在让它返回其选择的动作之前,我允许它长出它的树 2 秒钟——它可能需要更长的时间思考吗?
我已经为我构建的连接四游戏实现了蒙特卡洛树搜索 (MCTS) 算法。MCTS 代理在 90-100% 的情况下击败了随机选择代理,但我仍然能够轻松击败它。它甚至错过了明显的连续三个机会,它只需要再添加一个令牌即可获胜(但将其放在其他地方)。
这是正常行为,还是 MCTS 特工也能持续击败我?在让它返回其选择的动作之前,我允许它长出它的树 2 秒钟——它可能需要更长的时间思考吗?
你不应该让树只生长两秒钟,而应该使用等于 1000 或类似的模拟数。我使用等于 10000 的模拟数在 tictactoe 游戏中进行单步操作,这对我来说效果很好。此外,在代理选择移动后,您不必从头开始统计(N = 访问次数,V = 预期奖励,U = UCT 分数),您可以使用当前统计信息并将根节点替换为选择的节点。