我见证了蒙特卡洛的回归在 REINFORCE 和 TD() 目标在香草演员评论家。但是,我从未见过有人使用 lambda return在这些情况下,也不是在任何其他算法中。
这有什么具体原因吗?如果我们使用,会不会有性能改进?
我见证了蒙特卡洛的回归在 REINFORCE 和 TD() 目标在香草演员评论家。但是,我从未见过有人使用 lambda return在这些情况下,也不是在任何其他算法中。
这有什么具体原因吗?如果我们使用,会不会有性能改进?
这是可以做到的。例如,萨顿和巴托的强化学习书(第 332 页)第 2 版的第 13 章有“具有资格跟踪的演员评论家”的伪代码。它正在使用为评论家(价值函数估计器)返回,也为参与者的策略梯度返回。
请注意,您没有明确看到返回伪代码中提到的。它们通过资格跟踪被隐式使用,这允许有效的在线实施(“向后视图”)。
我确实有这样的印象,尽管在最近的研究中这种用途相当罕见。我没有亲自使用策略梯度方法来从个人经验中判断为什么会这样。我的猜测是,这是因为策略梯度方法几乎总是与深度神经网络相结合,而在没有开始涉及长轨迹回报的情况下,在训练这些东西时,方差已经是一个足够大的问题了。
如果你使用大和-返回,你得到低偏差,但高方差。为了,你基本上又得到了 REINFORCE,它在实践中并没有真正使用,并且具有非常高的方差。为了,您只需再次获得一步回报。更高的值(如) 在我使用表格方法或线性函数逼近的经验中往往效果很好,但我怀疑使用 DNN 时方差可能太大了。
请注意,它非常流行-step 返回一个固定的,通常相当小的,在深度强化学习方法中。例如,我相信使用的原始 A3C 纸-step 返回,Rainbow 使用步返回。这些在实践中通常比-step 回报,但由于使用小.