政策梯度方程的目标?

数据挖掘 强化学习 可能性
2022-02-23 00:39:43

在此处输入图像描述

我不明白这是如何从第一个方程推导出到第二个期望的。它来自条件概率论吗?我查了,还是不明白。来自维基百科,连续变量 X 的期望是:

在此处输入图像描述

但这怎么可能相关呢?我的意思是我可以接受r(s,a)作为变量x,但为什么πθ(s,a)可以看作f(x)? 非常感谢任何提示或链接或参考书。

1个回答

假设τ=(s1,a1,...,aT)是来自的采样轨迹πθ(τ)有回报r(τ)=t=1Tr(st,at)然后我们预期奖励(我们的成本函数)定义为:

J(θ)Eτπθ(τ)[r(τ)]=πθ(τ)r(τ)dτ

在哪里πθ(τ)=πθ(s1,a1,...,aT)=p(s1)t=1Tπθ(at|st)p(st+1|st,at).

请注意,pdfπθ(τ)这是状态和动作的联合概率分布。因此期望来自:

E[X]=xf(x,y)dxdy

这就是您需要整合大量状态和操作的原因。p(s1)是初始状态的分布,独立于动作的积分,因此它可以脱离第二个积分。取联合分布的对数πθ(τ), 代入J(θ)并对第一个等式的两边进行微分,得到一个等式 wrtθ您可以计算的参数和数量,以便您可以估计梯度J(θ).

我对您的符号不是很熟悉(我认为您在硕士论文中找到了它),但这是一般方法。