我能找到的所有资源都为每个阶段提供了类似的解释。
在选择阶段,我们从根开始并选择子节点,直到到达叶子。一旦到达叶子(假设游戏没有终止),我们就进入了扩展阶段。
在扩展阶段,我们扩展任意数量的子节点并选择一个扩展的节点。然后,我们进入播放阶段。
这是我的困惑。如果我们选择仅扩展单个节点,则在未来的选择中将永远不会考虑未扩展的节点,因为我们只选择子节点,直到在选择阶段达到叶子为止。这个对吗?如果不是,我对选择阶段有什么误解?
我能找到的所有资源都为每个阶段提供了类似的解释。
在选择阶段,我们从根开始并选择子节点,直到到达叶子。一旦到达叶子(假设游戏没有终止),我们就进入了扩展阶段。
在扩展阶段,我们扩展任意数量的子节点并选择一个扩展的节点。然后,我们进入播放阶段。
这是我的困惑。如果我们选择仅扩展单个节点,则在未来的选择中将永远不会考虑未扩展的节点,因为我们只选择子节点,直到在选择阶段达到叶子为止。这个对吗?如果不是,我对选择阶段有什么误解?
如果我们选择仅扩展单个节点,则在未来的选择中将永远不会考虑未扩展的节点,因为我们只选择子节点,直到在选择阶段达到叶子为止。这个对吗?
不,这是不正确的。
如果不是,我对选择阶段有什么误解?
选择阶段不会仅在您到达没有扩展节点的节点时结束。当您到达具有任何未扩展节点的节点时,它会结束。此时,您通常会在树中选择一个或多个尚未展开的节点,展开它们并为它们收集一个或多个推出结果。变化是可能的,例如选择是否扩展或继续随机选择,或者使用值估计同时扩展所有子节点来初始化它们 - 后者是 AlphaZero 所做的。