我一直试图理解为什么 MCTS 对 RL 代理的性能非常重要,而我发现的最佳描述来自 Game Tree Search 的 Bootstrapping论文,其中指出:
国际象棋等确定性的两人游戏为搜索引导提供了理想的测试平台。复杂的战术需要大量的搜索才能提供准确的位置评估;没有搜索的学习在这些领域几乎没有成功。
然而,我不明白为什么会这样,以及为什么基于价值的方法无法达到类似的性能。
所以我的问题是:
- 将基于搜索的算法与基于值的方法结合起来的主要优点是什么?
我一直试图理解为什么 MCTS 对 RL 代理的性能非常重要,而我发现的最佳描述来自 Game Tree Search 的 Bootstrapping论文,其中指出:
国际象棋等确定性的两人游戏为搜索引导提供了理想的测试平台。复杂的战术需要大量的搜索才能提供准确的位置评估;没有搜索的学习在这些领域几乎没有成功。
然而,我不明白为什么会这样,以及为什么基于价值的方法无法达到类似的性能。
所以我的问题是:
假设一个连续/不可数的状态空间,我们只能使用函数逼近来估计我们的价值函数,所以我们的估计永远不会同时适用于所有状态(因为,松散地说,我们有比权重更多的状态)。如果我们可以查看我们采取的状态的(近似)值,例如 5 次动作时间,最好根据这些估计做出决定,同时考虑 5 次动作后观察到的真实奖励。
此外,MCTS 还允许更多隐式探索,因为在选择扩展树的动作时,我们可能会选择许多非贪婪动作,从而带来更好的未来回报。