为什么在策略梯度定理的证明中平稳分布独立于初始状态?

人工智能 强化学习 政策梯度 证明
2021-10-27 22:20:53

我在这里验证了策略梯度定理:https ://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html#svpg

在“策略梯度定理证明”部分的方程块中,就在“上面的漂亮重写允许我们排除 Q 值函数的导数......”这句话下面,他们设置

η(s)=k=0ρπ(s0s,k)
sη(s)=const
因此,他们基本上假设,平稳分布不依赖于初始状态。但我们如何证明这一点?如果 MDP 由块对角转换矩阵描述,在我看来这不应该成立。

1个回答

我认为你的怀疑是完全合理的。可能还有一个额外的假设,即他们(Lilian Weng 和Rich Sutton(第 269 页))在证明中没有明确说明,即您的 MDP 不仅是固定的,而且是遍历的。这些系统的一个特殊属性是最终达到一个状态的概率s从一个起点s0是 1。在这种情况下,很明显η(s)存在并且独立于任何s0选择。

显然,具有块对角转换矩阵的 MDP 不满足这样的假设,因为起点完全限制了您可以在无限时间内达到的那些状态。

我不明白为什么 Rich Sutton 确实提到遍历性是“持续任务”的必要条件,而不是“情节任务”(第 275 页)。对我来说,他们的证明在这两种情况下都需要这个条件。

作为补充说明,我也认为 Lilian Weng 并没有真正解释为什么我们应该从最初的合理定义中购买它J(θ)=Sdπθ(s)Vπθ(s)我们应该接受更简单的那个J(θ)=Vπθ(s0). 我想唯一的原因是初始表达式的梯度确实需要知道的梯度dπθ(s)所以你会接受近似值:

θJ(θ)=θ(Sdπθ(s)Vπθ(s))Sdπθ(s)θVπθ(s),

最后一个术语只是θVπθ(s0)在遍历性假设下。