在 AlphaGo Zero 论文中,在 MCTS 期间,每个新节点的统计信息被初始化如下:
.
选择最佳子节点的PUCT算法是, 在哪里.
如果我们从一棵只包含根节点并且还没有访问过任何子节点的树开始,那么对于所有操作,这应该评估为 0我们可以从根节点获取。然后我们是否只是简单地统一采样要采取的行动?
此外,在我们添加未访问节点的 expand() 步骤中对于树,这个节点的子节点也不会被访问,我们遇到了同样的问题,PUCT 将返回 0 对于所有操作。我们在这里也做同样的统一抽样吗?
在 AlphaGo Zero 论文中,在 MCTS 期间,每个新节点的统计信息被初始化如下:
.
选择最佳子节点的PUCT算法是, 在哪里.
如果我们从一棵只包含根节点并且还没有访问过任何子节点的树开始,那么对于所有操作,这应该评估为 0我们可以从根节点获取。然后我们是否只是简单地统一采样要采取的行动?
此外,在我们添加未访问节点的 expand() 步骤中对于树,这个节点的子节点也不会被访问,我们遇到了同样的问题,PUCT 将返回 0 对于所有操作。我们在这里也做同样的统一抽样吗?
我查看了附加到AlphaZero 论文补充材料的数据 S1 的 Python 伪代码。这是我的发现:
max函数打破平局,因此该算法只需选择它找到的第一个元素以防平局。