我在这里验证了策略梯度定理:https ://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html#svpg
在“策略梯度定理证明”部分的方程块中,就在“上面的漂亮重写允许我们排除 Q 值函数的导数......”这句话下面,他们设置
我在这里验证了策略梯度定理:https ://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html#svpg
在“策略梯度定理证明”部分的方程块中,就在“上面的漂亮重写允许我们排除 Q 值函数的导数......”这句话下面,他们设置
我认为你的怀疑是完全合理的。可能还有一个额外的假设,即他们(Lilian Weng 和Rich Sutton(第 269 页))在证明中没有明确说明,即您的 MDP 不仅是固定的,而且是遍历的。这些系统的一个特殊属性是最终达到一个状态的概率从一个起点是 1。在这种情况下,很明显存在并且独立于任何选择。
显然,具有块对角转换矩阵的 MDP 不满足这样的假设,因为起点完全限制了您可以在无限时间内达到的那些状态。
我不明白为什么 Rich Sutton 确实提到遍历性是“持续任务”的必要条件,而不是“情节任务”(第 275 页)。对我来说,他们的证明在这两种情况下都需要这个条件。
作为补充说明,我也认为 Lilian Weng 并没有真正解释为什么我们应该从最初的合理定义中购买它我们应该接受更简单的那个. 我想唯一的原因是初始表达式的梯度确实需要知道的梯度所以你会接受近似值:
最后一个术语只是在遍历性假设下。