在强化学习的确定性环境中是否不需要折扣?

人工智能 强化学习 q学习 折扣因子
2021-11-17 05:24:30

我现在正在阅读一本名为《Deep Reinforcement Learning Hands-On》的书,作者在关于 AlphaGo Zero 的章节中说了以下内容:

自我游戏

在 AlphaGo Zero 中,NN 用于逼近动作的先验概率并评估位置,这与 Actor-Critic (A2C) 双头设置非常相似。在网络的输入上,我们传递当前的游戏位置(加上几个先前的位置)并返回两个值。策略头返回动作的概率分布,价值头从玩家的角度估计游戏结果。这个值是未折现的,因为 Go 中的移动是确定性的。当然,如果您在游戏中具有随机性,例如在西洋双陆棋中,则应该使用一些折扣。

到目前为止我看到的所有环境都是随机环境,我知道在随机环境中需要折扣因子。我也明白,为了避免无限计算,应该在无限环境(没有结束情节)中添加折扣因子。

但是我从来没有听说过(至少到目前为止我有限的学习)在确定性环境中不需要折扣因子。这是正确的吗?如果是这样,为什么不需要它?

1个回答

添加折扣因子的动机γ通常,至少最初是基于“理论上的便利”。理想情况下,我们希望将 RL 代理的“目标”定义为最大化它收集的所有奖励的总和;它的return,定义为:

t=0Rt,

在哪里Rt表示当时的即时奖励t. 正如您在问题中已经指出的那样,从理论的角度来看,这很不方便,因为我们可以有许多不同的总和,最终都等于,然后“最大化”该数量的目标变得毫无意义。因此,到目前为止,最常见的解决方案是引入折扣因子0γ<1,并将我们的目标制定为最大化贴现回报

t=0γtRt.

现在我们有一个永远不会等于的目标,因此最大化该目标始终具有明确定义的含义。


据我所知,上述动机是折扣因素严格必要/需要的唯一动机与随机或确定性问题无关

如果我们有一个随机环境,它保证最多有一个有限的持续时间T,我们可以将我们的目标定义为最大化以下数量:

0TRt,

在哪里Rt是从某个分布中抽取的随机变量。即使在随机环境的情况下,这也是明确定义的,我们并不严格需要折扣因子


上面,我谈到了是否需要折扣因子的问题。但这并不能说明全部情况。即使在折扣系数不是绝对必要的情况下,它仍然可能有用

直观地说,折扣因子γ<1告诉我们,在时间意义上就近的奖励(可以在少量时间步内到达)比远离的奖励更重要在有限时间范围的问题中T,这可能不是真的,但它仍然是一个有用的启发式/经验法则

这样的经验法则在随机环境中特别有用,因为随机性可以在长时间内引入比在短时间内更大的方差/不确定性因此,即使在理想的世界中,我们希望最大化我们的未折扣奖励的预期总和,通常更容易学习如何有效地最大化折扣总和我们将学习减轻随机性引起的不确定性的行为,因为它优先考虑短期奖励而不是长期奖励。

这个经验法则在随机环境中特别有意义,但我不同意那本书中的暗示,即它将仅限于随机环境。折扣系数γ<1也经常被发现对确定性环境中的学习性能有益,即使之后我们根据未贴现的回报评估算法的性能,可能是因为它会导致“更简单”的学习问题。在确定性环境中,由于环境本身,可能没有任何不确定性/方差会随着时间的推移而增长,但在训练过程中,我们的代理行为仍然存在不确定性/方差,并且会随着时间的推移而增长。例如,为了探索,它通常会选择次优动作。