人工智能 - 给蒙特卡洛搜索的结果赋予更大的权重并减少转弯获胜是否有意义？ - 吾爱随笔录

给蒙特卡洛搜索的结果赋予更大的权重并减少转弯获胜是否有意义？

人工智能游戏-ai 蒙特卡罗树搜索

2021-11-13 20:44:52

我正在使用 MCTS 在 Connect6 上编程。

蒙特卡洛树搜索基于随机移动。它计算某些动作的获胜次数。（无论是3回合还是30回合获胜）

转弯次数少的动作比转弯次数多的动作更强大吗？（因为 mcts 只是看它是否获胜 - 不考虑获胜所需的回合数）如果是这样，给予更大的权重是否有意义回合少的一方获胜？

1个回答

传统上（当不考虑你的想法时），终端游戏状态的评估函数将被实现为返回 $1$ , $0$ ，或者 $-1$ 分别代表胜利、平局或失败。

以天真/直接的方式改变这一点，使短期获胜更有价值，长期获胜更少奖励，短期损失更负面，长期损失更少负面可能是危险的，它可能会改变你的代理人的目标如果没有非常仔细地进行，最终会优化（即可能失去在无限时间下收敛到最佳游戏的保证）。

不过考虑这个想法肯定是有价值的，特别是因为在 MCTS 的播放阶段，（半）随机移动的轨迹会在这些模拟结束时的评估中引入不确定性，并且这种不确定性会随着时间长度的增加而增加轨迹增加（由于沿着轨迹做出的不知情决定的数量增加）。请注意，这里特别重要的是要考虑在出局阶段中的移动数量，不一定包括在选择阶段做出的移动数量（根据更明智的策略选择）。

我知道的一篇研究这些思路的论文是“Monte-Carlo Tree Search Simulations 基于质量的奖励”。

其它你可能感兴趣的问题

上一篇这是否可以防止遗忘：训练具有 N 个节点的神经网络。然后，添加更多节点并停止训练原始节点下一篇为什么短时傅里叶变换用于预处理音频样本？