我已经使用 MCTS 创建了一个代理来玩 Connect Four。它很好地战胜了人类,但我想改进它。我决定将领域知识添加到 MCTS 推出阶段。我的评估函数检查一个动作有多“好”,并将最佳/最高价值的动作作为要使用的动作返回到推出策略。我为一个没有使用评估功能的代理创建了一个“健身房”应用程序,以与使用评估功能的代理对战。我本来希望使用启发式的代理比不使用启发式的代理表现得更好,但是包含启发式似乎没有任何区别!任何想法为什么会这样?
为什么连接四蒙特卡洛树搜索的启发式不能改进代理?
人工智能
强化学习
蒙特卡罗树搜索
启发式
2021-10-28 10:51:56
1个回答
可能的情况是,如果您执行大量随机推出,那么没有领域知识的代理选择的“最佳操作”与具有领域知识的代理相同。我想你可以做的是尝试减少推出的数量,看看性能是否会发生变化。