添加折扣因子的动机γ通常,至少最初是基于“理论上的便利”。理想情况下,我们希望将 RL 代理的“目标”定义为最大化它收集的所有奖励的总和;它的return,定义为:
∑t=0∞Rt,
在哪里Rt表示当时的即时奖励t. 正如您在问题中已经指出的那样,从理论的角度来看,这很不方便,因为我们可以有许多不同的总和,最终都等于∞,然后“最大化”该数量的目标变得毫无意义。因此,到目前为止,最常见的解决方案是引入折扣因子0≤γ<1,并将我们的目标制定为最大化贴现回报:
∑t=0∞γtRt.
现在我们有一个永远不会等于的目标∞,因此最大化该目标始终具有明确定义的含义。
据我所知,上述动机是折扣因素严格必要/需要的唯一动机。这与随机或确定性问题无关。
如果我们有一个随机环境,它保证最多有一个有限的持续时间T,我们可以将我们的目标定义为最大化以下数量:
∑0TRt,
在哪里Rt是从某个分布中抽取的随机变量。即使在随机环境的情况下,这也是明确定义的,我们并不严格需要折扣因子。
上面,我谈到了是否需要折扣因子的问题。但这并不能说明全部情况。即使在折扣系数不是绝对必要的情况下,它仍然可能有用。
直观地说,折扣因子γ<1告诉我们,在时间意义上就近的奖励(可以在少量时间步内到达)比远离的奖励更重要。在有限时间范围的问题中T,这可能不是真的,但它仍然是一个有用的启发式/经验法则。
这样的经验法则在随机环境中特别有用,因为随机性可以在长时间内引入比在短时间内更大的方差/不确定性。因此,即使在理想的世界中,我们希望最大化我们的未折扣奖励的预期总和,通常更容易学习如何有效地最大化折扣总和;我们将学习减轻随机性引起的不确定性的行为,因为它优先考虑短期奖励而不是长期奖励。
这个经验法则在随机环境中特别有意义,但我不同意那本书中的暗示,即它将仅限于随机环境。折扣系数γ<1也经常被发现对确定性环境中的学习性能有益,即使之后我们根据未贴现的回报评估算法的性能,可能是因为它会导致“更简单”的学习问题。在确定性环境中,由于环境本身,可能没有任何不确定性/方差会随着时间的推移而增长,但在训练过程中,我们的代理行为仍然存在不确定性/方差,并且会随着时间的推移而增长。例如,为了探索,它通常会选择次优动作。