我正在查看Rainbow 论文,但我不确定我是否理解他们如何使用 DQN 进行多步学习,而无需进行任何更正以解决政策外问题。
所以。我了解如何使用 1-step update off-policy:单个转换的奖励不依赖于当前的策略,因此您可以在未来重用这种体验。
我也理解 n 步更新的意义:这是在 1 步更新中具有高偏差(因为您只能从单个转换中获得有限的信息)和在 n 步更新中具有高方差(如如果策略和环境都可以是随机的,因此您最终将 n 个随机变量加在一起)。
我不明白的是如何使用 n-step return off-policy,这就是 Rainbow DQN 似乎做的事情。使用 n 步回报,您正在考虑轨迹,并且您不能假设如果代理使用当前策略,这些轨迹就会被采用。
如果我理解正确,在策略梯度的情况下,这是使用重要性采样来处理的,这将减少远离当前策略的影响。
但是我看不到多步 DQN 的等价物吗?