我很难理解目标网络和双 DQN 之间的区别
Target Network 生成 target-Q 值,用于计算训练期间每个动作的损失。目标网络的权重是固定的,并且经常但少量地向主要 Q 网络值更新。
双 DQN:在计算我们的训练步骤的目标 Q 值时,我们不是在 Q 值上取最大值,而是使用我们的主网络选择一个动作,并使用我们的目标网络为该动作生成目标 Q 值
这听起来和我很相似,这个等式也让我迷失了:(
qTarget = r + γQ( s’, argmax(Q(s’,a,ϴ),ϴ’) )
据我所知,目标网络方法允许我们执行以下操作:
- 使用在线网络,获取每个动作的分数作为当前状态的响应。选择最合适的动作 并记下它的分数
- 使用该动作,“旅行”到下一个状态并从目标网络获得分数以进行进一步的动作。
- 从步骤 2) 中选择最合适的操作并调用它 . 另外,记下它的分数
- 惩罚 OnlineNetwork 之间的任何差异 和 .
注意:梯度只流过 “输出向量”的组成部分
如果这些步骤有误,请纠正我