我们可以在没有生成模型的情况下使用 MCTS 吗?

人工智能 强化学习 蒙特卡罗树搜索
2021-11-04 09:04:14

根据我对Levente Kocsis 和 Csaba Szepesvári的 UCT 论文Bandit based monte-carlo planning的理解,MCTS/UCT 需要一个生成模型。

  1. 这是否意味着,如果没有环境的生成模型,我们就不能使用 MCTS?

  2. 如果我们仍然可以使用 MCTS,那么在这种情况下如何推出,因为没有模拟?

1个回答

您要么需要生成模型,要么需要环境模拟器。在后一种情况下,您不使用模型计算转换和奖励,而是将您的操作和状态提供给模拟器并使用结果。

模拟器可以是一个黑盒子,只要它在提供当前状态和动作时返回下一个状态和奖励。您还需要一种方法来识别给定状态下的所有法律行为以构建树。