数据挖掘 - AlphaGo 零损失函数 - 吾爱随笔录

数据挖掘深度学习喀拉斯张量流损失函数深思熟虑

2022-03-04 16:23:14

据我从 AlphaGo Zero 系统了解：

在 self-play 部分，MCTS 算法存储一个元组 ( $s$ , $\pi$ , $z$ ）在哪里 $s$ 是状态， $\pi$ 是状态中动作的分布概率，并且 $z$ 是一个整数，表示该状态所在游戏的获胜者。
网络将收到 $s$ 作为输入（描述状态的一堆矩阵 $s$ ) 并将输出两个值： $p$ 和 $v$ . $p$ 是动作的分布概率，并且 $v$ 是一个值 $[-1,1]$ 代表哪位玩家有可能赢得比赛。
对于训练，它将使用以下损失函数：

l = (z - v)^{2} - π^{T} l o g (p) + c | | θ | |^{2}

$l = (z - v)^2 - \pi^T log(p) + c ||\theta||^2$

我的问题

1个回答

理解这部分的最好方法是查看AlphaGo Zero 论文中的图 1 。

神经网络 (NN) 最小化其自身策略之间的差异 $p_t$ 和 MCTS 政策 $\pi_t$ . 的价值 $\pi_t$ 由 MCTS self-play 产生，作为回报，它使用上一次迭代中的 NN。

这同样适用于 $v_t$ 和 $z$ . 在每次迭代中，调整 NN 的权重以最小化两者之间的距离 $v_t$ （NN的输出）和 $z$ （MCTS 的输出）由损失函数定义。 $z$ 这里没有时间索引，因为完整的自我游戏只产生一个值 $z$ 每次进行。

第一个问题的TLDR：两者， $\pi$ 和 $v$ , 由 MCTS 生成，作为 NN 的输入。

（在我看来，论文中的索引有点令人困惑，所以按照上面的说明看它可能是最容易的）

现在，“输入”并不是指在 NN 的输入层上的输入。如附录“神经网络架构”下所述，输入是“19 x 19 x 17 图像堆栈”。其中包含以下信息：

而这 17 个特征平面（ $8+8+1$ ) 结合 $19\cdot19$ 大小板是 $19\cdot19\cdot17$ 输入 NN 通过其输入层接收。 $\pi$ 和 $z$ 仅通过损失函数传递给 NN（即它们是此监督学习问题中的目标值！）。

第二个问题的TLDR： $\pi$ 和 $z$ 不是通过输入层馈送到NN，而是通过损失函数作为目标值。

其它你可能感兴趣的问题