给蒙特卡洛搜索的结果赋予更大的权重并减少转弯获胜是否有意义?

人工智能 游戏-ai 蒙特卡罗树搜索
2021-11-13 20:44:52

我正在使用 MCTS 在 Connect6 上编程。

蒙特卡洛树搜索基于随机移动。它计算某些动作的获胜次数。(无论是3回合还是30回合获胜)

转弯次数少的动作比转弯次数多的动作更强大吗?(因为 mcts 只是看它是否获胜 - 不考虑获胜所需的回合数)如果是这样,给予更大的权重是否有意义回合少的一方获胜?

1个回答

传统上(当不考虑你的想法时),终端游戏状态的评估函数将被实现为返回1,0, 或者-1分别代表胜利、平局或失败。

以天真/直接的方式改变这一点,使短期获胜更有价值,长期获胜更少奖励,短期损失更负面,长期损失更少负面可能是危险的,它可能会改变你的代理人的目标如果没有非常仔细地进行,最终会优化(即可能失去在无限时间下收敛到最佳游戏的保证)。

不过考虑这个想法肯定是有价值的,特别是因为在 MCTS 的播放阶段,(半)随机移动的轨迹会在这些模拟结束时的评估中引入不确定性,并且这种不确定性会随着时间长度的增加而增加轨迹增加(由于沿着轨迹做出的不知情决定的数量增加)。请注意,这里特别重要的是要考虑在出局阶段中的移动数量,不一定包括在选择阶段做出的移动数量(根据更明智的策略选择)。

我知道的一篇研究这些思路的论文是“Monte-Carlo Tree Search Simulations 基于质量的奖励”