当将强化学习扩展到连续状态、连续动作的情况时,我们必须使用函数逼近器(线性或非线性)来逼近 Q 值。众所周知,非线性函数逼近器,例如神经网络,会急剧发散。帮助稳定训练的一种方法是使用奖励裁剪。因为时间差 Q-update 是一种引导方法(即使用先前计算的值来计算当前预测),非常大的先前计算的 Q 值可以使当前奖励相对微不足道,从而使当前奖励不会影响Q-update,最终导致代理发散。
为了避免这种情况,我们可以通过将奖励限制在 [1, -1] 之间来尝试避免较大的 Q 值。
但是我看到其他人说,我们可以在一个区间之间裁剪 Q 值,而不是裁剪奖励本身。
我想知道哪种方法更适合收敛,以及在什么假设/情况下。我还想知道是否有任何关于奖励/Q 值裁剪的理论证明/解释以及哪个更好。