半梯度方法在强化学习中效果很好,但如果可以计算,有什么理由不使用真正的梯度呢?
我在深度 Q 网络的推车杆问题上进行了尝试,它的表现比传统的半梯度差得多。这有具体的原因吗?
半梯度方法在强化学习中效果很好,但如果可以计算,有什么理由不使用真正的梯度呢?
我在深度 Q 网络的推车杆问题上进行了尝试,它的表现比传统的半梯度差得多。这有具体的原因吗?
半梯度方法在强化学习中效果很好,但如果可以计算,不使用真实梯度的原因是什么?
只是复杂性和额外的计算,在许多情况下是为了边际收益。
我在深度 Q 网络的推车杆问题上进行了尝试,它的表现比传统的半梯度差得多,这有什么具体原因吗?
如果不详细探索实现,就很难说。然而,DQN 本质上是一种不稳定的学习技术,在选择控制这种不稳定性并抵消学习率的超参数时需要小心:
真实梯度和半梯度方法之间的最佳选择有可能不同。
* 冻结的估算器可能是您实现中的重要线索。如果您使用这种冻结复制技术,它会对您应该如何计算真实梯度产生很大影响,因为更改参数将不再改变当前的 TD 目标 - 这是真实梯度方法所修复的。然而,为了获得真正的梯度而摆脱这种提高稳定性的添加可能会降低算法的稳定性——你可以尝试通过采用更大的小批量来解决这个问题。
只是为了让以后参考这篇文章的人有用:请参阅 Sutton 的强化学习书(第 2 版)示例 11.2。它提供了一个示例,说明为什么完全渐变不起作用。