在强化学习中,通常使用折扣因子在计算回报时不那么重视未来的回报。
我还看到提到折扣状态分布。在 Sutton 和 Barto 教科书的第 199 页中提到,如果存在折扣(对于状态分布),则应将其视为一种终止形式,并且暗示这可以通过添加一个因子来实现到 MDP 的状态转换动态,所以现在我们有
在哪里和是情节开始于状态的概率.
在我看来,这本书有点跳过了这一点,如果我们在剧集中打折,我还不清楚为什么我们需要打折我们的状态分布。
我的直觉表明,这是因为我们通常对状态分布(以及动作/过渡动态)的回报进行预期,但是,如果我们打折(未来)奖励,那么我们也应该打折未来的状态给他们不太重要。在Sergey Levine 的讲座中,他提供了一个简短的旁白,我认为这与我的直觉一致,但以一种相当不令人满意的方式——他介绍了我们在每一步都有可能过渡到的“死亡状态”的概念但他并没有真正提供足够严格的理由来以这种方式思考它(除非它只是一个有用的心智模型并且不应该是严格的)。
我想知道是否有人可以提供更详细的解释来解释为什么我们打折状态分布。