在 DeepMind 的AlphaGo Zero和AlphaZero论文中,他们描述了将Dirichlet噪声添加到蒙特卡洛树搜索中根节点(棋盘状态)的动作的先验概率:
通过将 Dirichlet 噪声添加到根节点中的先验概率来实现额外的探索, 具体来说, 在哪里和; 这种噪音确保了所有的动作都可以尝试,但搜索可能仍然会否决错误的动作。
(阿尔法狗零)
和:
狄利克雷噪声被添加到根节点的先验概率中;这与典型位置的合法移动的近似数量成反比,值分别用于国际象棋、将棋和围棋。
(阿尔法零)
我不明白的两件事:
P(s, a)
是一个维向量。是狄利克雷分布的简写参数,每个都有值?我只遇到过 Dirichlet 作为多项分布的共轭先验。为什么会选在这里?
对于上下文,P(s, a)
它只是给定状态/动作的 PUCT(多项式上置信树,置信上限的变体)计算的一个组成部分。它由一个常数和一个度量来衡量,在 MCTS 期间在其兄弟姐妹中选择给定动作的次数,并添加到估计的动作值中Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .