我一直在阅读这篇出色的帖子:https ://medium.com/@jonathan_hui/rl-policy-gradients-explained-9b13b688b146并关注 David Silver 的 RL 视频,但我没有得到这个东西:
为了 πθ( τ) =πθ(s1,一个1, . . . ,s吨,一个吨) = p (s1)∏吨t = 1πθ(一个吨|s吨) p (st + 1|一个吨,s吨) 作为给定轨迹在一个周期中的可能性,价值函数的导数变为
∇θĴ= E[∇θ呸呸呸_ _πθ⋅ r ]
然后立即变成
=1ñ∑我= 1ñ(∑吨吨∇θ呸呸呸_ _πθ(一个我, t,s我, t) ) r
即对所有 N 条路径求和τ,而我预期
=∑τπθ( τ)∑吨吨∇θ呸呸呸_ _πθ( τ) r
我没有得到什么:轨迹的概率在哪里πθ( τ)(最左边的总和)去还是为什么它被所有路径的平均值所取代?假设你从一个已知的起始位置开始,所有的轨迹都是同样可能的吗?
(您可以在上面链接的博客文章中找到方程式,在“优化”一章的末尾,就在“直觉”一章之前。)