普通策略梯度收敛的正式证明

数据挖掘 强化学习 数学 政策梯度
2021-10-12 00:18:59

所以我偶然发现了这个问题,作者要求提供一个普通策略梯度程序的证明。答案提供了一些文献,但没有正式的证据。看看 Sutton,Barto-Reinforcement Learning,他们声称 REINFORCE Monte Carlo 算法的收敛性在随机近似步长要求下得到保证,但他们似乎没有参考任何更详细的来源。

我很好奇是否有人真的准备好正式的证明供我阅读。我找到了一篇论文,详细介绍了证明一般在线随机梯度下降算法的收敛性,请参阅第 2.3 节

但是,我不确定论文中提供的证明是否适用于 Sutton 书中描述的算法。在上述算法中,假设策略没有改变,获得的样本至少与梯度成正比。然而,梯度的解析表达式

J(θ)sμ(s)aqπ(s,a)π(a|s,θ)

取决于政策状态分布 μ(s) 当我们更新时会发生变化 θ. 因此,在算法期间更新时,分布会发生变化。

任何帮助将不胜感激。我在上面链接的 Bottou 的论文指出,该事件是从一个固定的概率分布中得出的,而这里的情况并非如此。

编辑:

所以在阅读了更多的论文后,我发现了这篇论文,这是 Bertsekas 和 Tsitsiklis 的论文。他们认为,在某些假设下,可以保证收敛到一个固定点,其中一个更新规则为

xt+1=xt+γt(st+wt)
wt有一些错误
E[wt|Ft]=0
用于上升σ-字段Ft,可以认为是对轨迹的条件化x0,s0,xt1,st1,wt1,xt,st. 我相信这可能是一个解决方案,因为我们需要给定过去参数的预期梯度更新xt,它决定了抽样分布,这正是策略梯度定理所保证的。如果有人可以验证这一点,我会很高兴。

0个回答
没有发现任何回复~