我对决斗深度 Q 网络 (DQN) 的 Q 值感到困惑。据我所知,决斗 DQN 有 2 个输出
优势:处于特定状态有多好
价值:选择特定行动的优势
我们可以将这两个输出变成 Q 值(选择特定动作的奖励处于状态时) 通过将它们加在一起。
然而,在 DQN 中,我们从网络的单个输出层获得 Q 值。
现在,假设我在输入层和隐藏层中使用相同权重的相同 DQN 模型,并更改输出层,从而为我们提供 Q 值以获取优势和值输出。然后,在训练过程中,如果我将它们加在一起,假设我的两个算法的所有参数除了输出层之外,它是否会给我相同的 Q 值?