强化学习:政策梯度推导问题

数据挖掘 强化学习 政策梯度
2021-09-25 21:02:17

我一直在阅读这篇出色的帖子:https ://medium.com/@jonathan_hui/rl-policy-gradients-explained-9b13b688b146并关注 David Silver 的 RL 视频,但我没有得到这个东西:

为了 πθ(τ)=πθ(s1,a1,...,sT,aT)=p(s1)t=1Tπθ(at|st)p(st+1|at,st) 作为给定轨迹在一个周期中的可能性,价值函数的导数变为

θJ=E[θlogπθr]

然后立即变成

=1Ni=1N(tTθlogπθ(ai,t,si,t))r

即对所有 N 条路径求和τ,而我预期

=τπθ(τ)tTθlogπθ(τ)r

我没有得到什么:轨迹的概率在哪里πθ(τ)(最左边的总和)去还是为什么它被所有路径的平均值所取代?假设你从一个已知的起始位置开始,所有的轨迹都是同样可能的吗?

(您可以在上面链接的博客文章中找到方程式,在“优化”一章的末尾,就在“直觉”一章之前。)

1个回答

其实文章里有而不是一个=. 这是因为您可以通过对各自的分布进行采样来近似期望值。

假设您要计算

[F(X)]=p(X)F(X)dX

积分可能难以处理,你甚至可能不知道分布p(X). 但只要你能从中取样p(X),您可以使用 Monte Carlo 估计器很好地近似

[F(X)]1ñ一世=1ñF(X一世)

X一世p(X)对所有人一世. 这种近似值对于更大的情况会变得更好ñ. 分布p(X)在某种意义上,由样本代表X一世以及它们各自的频率。

这就是文章中发生的事情。您想计算所有可能轨迹的期望值,但这是不可行的。不过幸运的是,您可以通过运行环境模拟来对分布进行采样。然后使用轨迹样本来近似期望。πθ(τ)在采样中表示一个一世,s一世,.

简而言之,对所有可能路径的期望近似于路径样本的平均值。