为什么在策略梯度中很少使用 lambda 返回?

人工智能 强化学习 政策梯度 加强 返回 td-λ
2021-10-29 23:43:37

我见证了蒙特卡洛的回归Gt在 REINFORCE 和 TD(0) 目标rt+γQ(s,a)在香草演员评论家。但是,我从未见过有人使用 lambda returnGtλ在这些情况下,也不是在任何其他算法中。

这有什么具体原因吗?如果我们使用,会不会有性能改进Gtλ?

2个回答

这是可以做到的。例如,萨顿和巴托的强化学习书(第 332 页)第 2 版的第 13 章有“具有资格跟踪的演员评论家”的伪代码。它正在使用Gtλ为评论家(价值函数估计器)返回,也为参与者的策略梯度返回。

请注意,您没有明确看到Gtλ返回伪代码中提到的。它们通过资格跟踪被隐式使用,这允许有效的在线实施(“向后视图”)。


我确实有这样的印象,尽管在最近的研究中这种用途相当罕见。我没有亲自使用策略梯度方法来从个人经验中判断为什么会这样。我的猜测是,这是因为策略梯度方法几乎总是与深度神经网络相结合,而在没有开始涉及长轨迹回报的情况下,在训练这些东西时,方差已经是一个足够大的问题了。

如果你使用大λλ-返回,你得到低偏差,但高方差。为了λ=1,你基本上又得到了 REINFORCE,它在实践中并没有真正使用,并且具有非常高的方差。为了λ=0,您只需再次获得一步回报。更高的值λ(如λ=0.8) 在我使用表格方法或线性函数逼近的经验中往往效果很好,但我怀疑使用 DNN 时方差可能太大了。

请注意,它非常流行n-step 返回一个固定的,通常相当小的,n在深度强化学习方法中。例如,我相信使用的原始 A3C 纸5-step 返回,Rainbow 使用3步返回。这些在实践中通常比1-step 回报,但由于使用小n.

最近的演员评论算法确实使用λ-returns,但它们被伪装成称为广义优势估计器的东西,定义为AtGAE=i=0(γλ)iδt+i在哪里δt=rt+γV(st+1)V(st). 事实证明这完全等于[GtλV(st)]_λ-return 减去一个价值函数基线。从理论上讲,任何演员-评论家梯度方法都可以很容易地使用它;它在 GAE 论文中与 TRPO 结合,后来用于 PPO。同样,ACER 使用一种称为 Retrace(λ)。

对于像 DQN 或 DDPG 这样的重放方法,实现起来比较困难λ-返回。这就是为什么他们在历史上默认n-step 如@DennisSoemers 所述返回。我最近发表了一篇论文,描述了一种有效结合的方法λ- 回归体验重播,希望能增加人气λ-返回这些方法。