数据挖掘 - 强化学习：理解 n-step Tree Backup 算法的这种推导 - 吾爱随笔录 - 问答

强化学习：理解 n-step Tree Backup 算法的这种推导

数据挖掘机器学习统计数据强化学习

2022-01-23 10:03:10

我想我明白了主要思想，除了这一行，我几乎理解了推导，见下图：

我通过使用策略概率来加权从时间 t + 2 开始的奖励来理解我们在做什么（因为到达这里取决于采取到达这里的行动的概率）。但我不明白为什么我们同样从返回中减去值函数......

它似乎也与本讲座幻灯片的第 15 张幻灯片上的 2 步备份隐含的示例目标返回 (G) 不匹配：

https://www.dropbox.com/sh/3xowt7qvyadvejn/AABpWQMKWX3KVbeqVlBcxNYra/slides%20(pdf%20and%20keynote)?dl=0&preview=13-multistep.pdf

感谢您的任何见解。当我深入研究这些细节时，我可能会遗漏一些简单/明显的东西。

编辑 - 有关更多上下文，请参阅第 pg。这个pdf的160是图片的来源：http: //incompleteideas.net/sutton/book/bookdraft2016sep.pdf

1个回答

幻灯片和书是一致的。请注意幻灯片中的摘要是如何限制的：即。对于，您需要从 $a \neq A_{t+1}$ $G^{(2)}$ $V_{t+1}$ 中“删除”不应该存在的术语，即 $A_{t+1}$ .

现在，为什么要删除这个词？

如果您保留此术语，您将添加 $A_{t+1}$ 两次。在 1-step 备份中，它是 step 期望的一部分 $S_{t+1}$ .

当您计算要替换的两步备份时 $(S_{t+1}, A_{t+1})$ 在 1 步期望中，贴现期望值为 $S_{t+2}$ . 因此，您减去该术语并添加折扣期望 $S_{t+2}$

其它你可能感兴趣的问题

上一篇如何在 Orange 中获取汇总统计信息？下一篇实现 t-SNE 时如何均衡成对的亲和力困惑？