强化学习:理解 n-step Tree Backup 算法的这种推导

数据挖掘 机器学习 统计数据 强化学习
2022-01-23 10:03:10

我想我明白了主要思想,除了这一行,我几乎理解了推导,见下图:

在此处输入图像描述

我通过使用策略概率来加权从时间 t + 2 开始的奖励来理解我们在做什么(因为到达这里取决于采取到达这里的行动的概率)。但我不明白为什么我们同样从返回中减去值函数......

它似乎也与本讲座幻灯片的第 15 张幻灯片上的 2 步备份隐含的示例目标返回 (G) 不匹配:

https://www.dropbox.com/sh/3xowt7qvyadvejn/AABpWQMKWX3KVbeqVlBcxNYra/slides%20(pdf%20and%20keynote)?dl=0&preview=13-multistep.pdf

感谢您的任何见解。当我深入研究这些细节时,我可能会遗漏一些简单/明显的东西。

编辑 - 有关更多上下文,请参阅第 pg。这个pdf的160是图片的来源:http: //incompleteideas.net/sutton/book/bookdraft2016sep.pdf

1个回答

幻灯片和书是一致的。请注意幻灯片中的摘要是如何限制的:即 对于,您需要从aAt+1G(2)Vt+1中“删除”不应该存在的术语,即At+1.

现在,为什么要删除这个词?

如果您保留此术语,您将添加At+1两次。在 1-step 备份中,它是 step 期望的一部分St+1.

当您计算要替换的两步备份时(St+1,At+1)在 1 步期望中,贴现期望值为St+2. 因此,您减去该术语并添加折扣期望St+2