数据挖掘 - 普通策略梯度收敛的正式证明 - 吾爱随笔录

所以我偶然发现了这个问题，作者要求提供一个普通策略梯度程序的证明。答案提供了一些文献，但没有正式的证据。看看 Sutton，Barto-Reinforcement Learning，他们声称 REINFORCE Monte Carlo 算法的收敛性在随机近似步长要求下得到保证，但他们似乎没有参考任何更详细的来源。

我很好奇是否有人真的准备好正式的证明供我阅读。我找到了一篇论文，详细介绍了证明一般在线随机梯度下降算法的收敛性，请参阅第 2.3 节。

但是，我不确定论文中提供的证明是否适用于 Sutton 书中描述的算法。在上述算法中，假设策略没有改变，获得的样本至少与梯度成正比。然而，梯度的解析表达式

\nabla J (θ) \propto \sum_{s} μ (s) \sum_{a} q_{π} (s, a) \nabla π (a | s, θ)

$\nabla J(\theta) \propto \sum_s \mu(s)\sum_a q_{\pi}(s,a)\nabla \pi(a|s,\theta)$

取决于政策状态分布 $\mu(s)$ 当我们更新时会发生变化 $\theta$ . 因此，在算法期间更新时，分布会发生变化。

任何帮助将不胜感激。我在上面链接的 Bottou 的论文指出，该事件是从一个固定的概率分布中得出的，而这里的情况并非如此。

编辑：

所以在阅读了更多的论文后，我发现了这篇论文，这是 Bertsekas 和 Tsitsiklis 的论文。他们认为，在某些假设下，可以保证收敛到一个固定点，其中一个更新规则为

x_{t + 1} = x_{t} + γ_{t} (s_{t} + w_{t})

$x_{t+1} = x_t +\gamma_t (s_t + w_t)$ 和

w_{t}

$w_t$ 有一些错误

E [w_{t} | F_{t}] = 0

$\mathbb{E}[w_t | \mathcal{F}_t] = 0$ 用于上升

σ

$\sigma$ -字段

F_{t}

$\mathcal{F}_t$ ，可以认为是对轨迹的条件化

x_{0}, s_{0} \dots, x_{t - 1}, s_{t - 1}, w_{t - 1}, x_{t}, s_{t}

$x_0,s_0\dots,x_{t-1},s_{t-1},w_{t-1},x_t,s_t$ . 我相信这可能是一个解决方案，因为我们需要给定过去参数的预期梯度更新

x_{t}

$x_t$ ，它决定了抽样分布，这正是策略梯度定理所保证的。如果有人可以验证这一点，我会很高兴。