所以我偶然发现了这个问题,作者要求提供一个普通策略梯度程序的证明。答案提供了一些文献,但没有正式的证据。看看 Sutton,Barto-Reinforcement Learning,他们声称 REINFORCE Monte Carlo 算法的收敛性在随机近似步长要求下得到保证,但他们似乎没有参考任何更详细的来源。
我很好奇是否有人真的准备好正式的证明供我阅读。我找到了一篇论文,详细介绍了证明一般在线随机梯度下降算法的收敛性,请参阅第 2.3 节。
但是,我不确定论文中提供的证明是否适用于 Sutton 书中描述的算法。在上述算法中,假设策略没有改变,获得的样本至少与梯度成正比。然而,梯度的解析表达式
取决于政策状态分布 当我们更新时会发生变化 . 因此,在算法期间更新时,分布会发生变化。
任何帮助将不胜感激。我在上面链接的 Bottou 的论文指出,该事件是从一个固定的概率分布中得出的,而这里的情况并非如此。
编辑:
所以在阅读了更多的论文后,我发现了这篇论文,这是 Bertsekas 和 Tsitsiklis 的论文。他们认为,在某些假设下,可以保证收敛到一个固定点,其中一个更新规则为
和有一些错误
用于上升-字段,可以认为是对轨迹的条件化. 我相信这可能是一个解决方案,因为我们需要给定过去参数的预期梯度更新,它决定了抽样分布,这正是策略梯度定理所保证的。如果有人可以验证这一点,我会很高兴。