我正在通过网站研究政策梯度:https ://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3f
无法弄清楚第一个方程如何变成第二个方程?
在第二个等式中,为什么第一个期望值只有 s_0, a_0, s_1, a_1 ... s_t, a_t 而没有涉及奖励?另外,第二个期望值只有 r_t+1, s_t+1, ... r_T, s_T,但不涉及任何动作?谁能分享这背后的想法/直觉?谢谢!
我正在通过网站研究政策梯度:https ://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3f
无法弄清楚第一个方程如何变成第二个方程?
在第二个等式中,为什么第一个期望值只有 s_0, a_0, s_1, a_1 ... s_t, a_t 而没有涉及奖励?另外,第二个期望值只有 r_t+1, s_t+1, ... r_T, s_T,但不涉及任何动作?谁能分享这背后的想法/直觉?谢谢!
中型帖子的括号位置错误。. . 第二个期望必须在总和内才有意义,否则没有定义。稍后您可以看到几个步骤被神奇地移回总和内。
我看不到解决第一个期望的方法,尽管它使用 在定义之前!
期望试图显示每个计算明确依赖于轨迹分布的哪些部分。我认为您不需要阅读更多内容。
但是,我建议您找到另一篇没有这些错误的文章。强化学习中的策略梯度也有类似的推导:简介