我正在使用 MCTS 在 Connect6 上编程。
蒙特卡洛树搜索基于随机移动。它计算某些动作的获胜次数。(无论是3回合还是30回合获胜)
转弯次数少的动作比转弯次数多的动作更强大吗?(因为 mcts 只是看它是否获胜 - 不考虑获胜所需的回合数)如果是这样,给予更大的权重是否有意义回合少的一方获胜?
我正在使用 MCTS 在 Connect6 上编程。
蒙特卡洛树搜索基于随机移动。它计算某些动作的获胜次数。(无论是3回合还是30回合获胜)
转弯次数少的动作比转弯次数多的动作更强大吗?(因为 mcts 只是看它是否获胜 - 不考虑获胜所需的回合数)如果是这样,给予更大的权重是否有意义回合少的一方获胜?
传统上(当不考虑你的想法时),终端游戏状态的评估函数将被实现为返回,, 或者分别代表胜利、平局或失败。
以天真/直接的方式改变这一点,使短期获胜更有价值,长期获胜更少奖励,短期损失更负面,长期损失更少负面可能是危险的,它可能会改变你的代理人的目标如果没有非常仔细地进行,最终会优化(即可能失去在无限时间下收敛到最佳游戏的保证)。
不过考虑这个想法肯定是有价值的,特别是因为在 MCTS 的播放阶段,(半)随机移动的轨迹会在这些模拟结束时的评估中引入不确定性,并且这种不确定性会随着时间长度的增加而增加轨迹增加(由于沿着轨迹做出的不知情决定的数量增加)。请注意,这里特别重要的是要考虑在出局阶段中的移动数量,不一定包括在选择阶段做出的移动数量(根据更明智的策略选择)。
我知道的一篇研究这些思路的论文是“Monte-Carlo Tree Search Simulations 基于质量的奖励”。