根据我对Levente Kocsis 和 Csaba Szepesvári的 UCT 论文Bandit based monte-carlo planning的理解,MCTS/UCT 需要一个生成模型。
这是否意味着,如果没有环境的生成模型,我们就不能使用 MCTS?
如果我们仍然可以使用 MCTS,那么在这种情况下如何推出,因为没有模拟?
根据我对Levente Kocsis 和 Csaba Szepesvári的 UCT 论文Bandit based monte-carlo planning的理解,MCTS/UCT 需要一个生成模型。
这是否意味着,如果没有环境的生成模型,我们就不能使用 MCTS?
如果我们仍然可以使用 MCTS,那么在这种情况下如何推出,因为没有模拟?
您要么需要生成模型,要么需要环境模拟器。在后一种情况下,您不使用模型计算转换和奖励,而是将您的操作和状态提供给模拟器并使用结果。
模拟器可以是一个黑盒子,只要它在提供当前状态和动作时返回下一个状态和奖励。您还需要一种方法来识别给定状态下的所有法律行为以构建树。