数据挖掘 - Q-Learning：目标网络与双 DQN - 吾爱随笔录

我很难理解目标网络和双 DQN 之间的区别

Target Network 生成 target-Q 值，用于计算训练期间每个动作的损失。目标网络的权重是固定的，并且经常但少量地向主要 Q 网络值更新。

双 DQN：在计算我们的训练步骤的目标 Q 值时，我们不是在 Q 值上取最大值，而是使用我们的主网络选择一个动作，并使用我们的目标网络为该动作生成目标 Q 值

这听起来和我很相似，这个等式也让我迷失了:(

qTarget = r + γQ(  s’,  argmax(Q(s’,a,ϴ),ϴ’)  )

据我所知，目标网络方法允许我们执行以下操作：

使用在线网络，获取每个动作的分数作为当前状态的响应。选择最合适的动作 $a$ 并记下它的分数 $q$

使用该动作，“旅行”到下一个状态并从目标网络获得分数以进行进一步的动作。

从步骤 2) 中选择最合适的操作并调用它 $A$ . 另外，记下它的分数 $Q$

惩罚 OnlineNetwork 之间的任何差异 $q$ 和 $Q$ .

注意：梯度只流过 $a$ “输出向量”的组成部分 $\{a, b, c, d ...\}$

如果这些步骤有误，请纠正我