我正在研究一个深度强化学习问题。在整个情节中,对好或坏的决定都有一个小的正面和负面奖励。最后,完成这一集会有巨大的奖励。所以,这个奖励函数是相当稀疏的。
这是我对 DQN 工作原理的理解。神经网络预测可以从状态中采取的每个可能动作的质量值. 让我们假设一个动作的预测质量值是, 这个动作允许代理到达.
我们现在需要目标质量值, 这样使用和可以计算时间差,并可以对价值网络的参数进行更新。
由两个词组成。即时奖励以及这个选择的动作留给我们的结果状态的最大质量值,可以表示为,这实际上是通过输入新状态获得的进入神经网络并选择(从每个动作的质量值列表中)最大质量值。然后我们乘以折扣因子有了这个并将其添加到奖励中, IE.
现在,让我们假设代理处于倒数第二个状态,,并选择动作这导致他进入完成状态,, 并获得奖励.
我们如何形成目标值为了现在?我们还包括学期?或者只是在这种情况下的奖励?我不确定是否甚至在达到最终状态后才有意义. 所以,我认为,对于最后一步,目标值必须只是奖励。这是正确的吗?