人工智能 - MCTS 选择阶段的 UCT 如何避免饥饿？ - 吾爱随笔录

MCTS 的第一步是根据应用于树的上置信界 (UCT) 继续选择节点，直到它到达一个叶节点，其中 UCT 定义为

\frac{w_{i}}{n_{i}} + c \sqrt{\frac{l n (t)}{n_{i}}},

$\frac{w_i}{n_i}+c\sqrt{\frac{ln(t)}{n_i}},$

在哪里

$w_i$ = 第 i 步后的获胜次数
$n_i$ = 第 i 次移动后的模拟次数
$c$ = 勘探参数（理论上等于 $\sqrt{2}$ )
$t$ = 父节点的模拟总数

我真的不明白这个等式如何避免兄弟节点被饿死，也就是没有探索。因为，假设你有 3 个节点，其中 1 个我们称之为节点 A 被随机选择进行探索，恰好模拟胜利。所以，节点 A 的 UCT $=1+\sqrt(2)\sqrt{\frac{ln(1)}{1}}$ ，而其他2个节点UCT = 0，因为它们是未探索的并且游戏刚刚开始，所以通过UCT其他2个节点永远不会被探索不是吗？因为在此之后它将进入扩展阶段并且扩展只发生它到达图中的叶节点。所以因为节点 A 是唯一具有 UCT 的节点 $> 0$ 它将选择节点 A 的一个子节点，并将继续沿该节点向下移动，因为节点 A 的所有兄弟节点的 UCT 为 0，因此它们永远不会被探索。