是否应该限制奖励或 Q 值以进行强化学习

人工智能 机器学习 强化学习 价值迭代 奖励剪辑
2021-11-04 06:40:00

当将强化学习扩展到连续状态、连续动作的情况时,我们必须使用函数逼近器(线性或非线性)来逼近 Q 值。众所周知,非线性函数逼近器,例如神经网络,会急剧发散。帮助稳定训练的一种方法是使用奖励裁剪。因为时间差 Q-update 是一种引导方法(即使用先前计算的值来计算当前预测),非常大的先前计算的 Q 值可以使当前奖励相对微不足道,从而使当前奖励不会影响Q-update,最终导致代理发散。

为了避免这种情况,我们可以通过将奖励限制在 [1, -1] 之间来尝试避免较大的 Q 值。

但是我看到其他人说,我们可以在一个区间之间裁剪 Q 值,而不是裁剪奖励本身。

我想知道哪种方法更适合收敛,以及在什么假设/情况下。我还想知道是否有任何关于奖励/Q 值裁剪的理论证明/解释以及哪个更好。

1个回答

我将从您帖子中的最后一个问题开始:

我还想知道是否有任何关于奖励/Q 值裁剪的理论证明/解释以及哪个更好。

我非常怀疑会有任何这样的理论工作。问题是这些剪裁变体(剪裁奖励和剪裁Q值)从根本上修改任务/原始目标。一旦你剪辑了这些东西中的任何一个,你就从根本上改变了你的代理试图从最初的目标进行优化的目标。我认为永远不可能获得任何严格的理论证据来证明总体上哪个更好。您可能必须从对原始任务中的奖励结构的一些非常强的假设开始,才有希望在这里证明任何东西,但是如此强的假设会让您失去普遍性。


直觉上......我认为奖励剪辑对我来说比剪辑更“安全”Q-价值观。剪裁Q-values 似乎更具侵略性,它可以被视为剪裁奖励的某种组合(如果您剪裁Q-值到[1,1],您至少仍然将所有奖励限制在该范围内),但另外还限制了您在未来多远(在某种意义上)。不过,这整个论点非常随意

我想,稍微不那么随意,您可以说在可以频繁收集类似数量的奖励的环境中,奖励裁剪绝对是“更好的”(从某种意义上说,您不会偏离最初的目标那么多)。我很难真正想到剪辑的情况Q-values 显然是基于直觉的最爱。如果剪裁我不会感到惊讶Q在某些情况下,经过经验评估后,-values 可能会更好,但很难说会在哪里。这也很大程度上取决于选择的范围。将奖励削减到一系列[1,1]和剪裁很不一样Q-值到相同的范围。