人工智能 - 将 MCTS 与基于价值的方法一起使用与仅基于价值的方法相比有什么优势？ - 吾爱随笔录

人工智能强化学习蒙特卡罗树搜索基于价值的方法

2021-11-01 18:58:00

我一直试图理解为什么 MCTS 对 RL 代理的性能非常重要，而我发现的最佳描述来自 Game Tree Search 的 Bootstrapping论文，其中指出：

国际象棋等确定性的两人游戏为搜索引导提供了理想的测试平台。复杂的战术需要大量的搜索才能提供准确的位置评估；没有搜索的学习在这些领域几乎没有成功。

然而，我不明白为什么会这样，以及为什么基于价值的方法无法达到类似的性能。

所以我的问题是：

1个回答

假设一个连续/不可数的状态空间，我们只能使用函数逼近来估计我们的价值函数，所以我们的估计永远不会同时适用于所有状态（因为，松散地说，我们有比权重更多的状态）。如果我们可以查看我们采取的状态的（近似）值，例如 5 次动作时间，最好根据这些估计做出决定，同时考虑 5 次动作后观察到的真实奖励。

此外，MCTS 还允许更多隐式探索，因为在选择扩展树的动作时，我们可能会选择许多非贪婪动作，从而带来更好的未来回报。

其它你可能感兴趣的问题