政策梯度方程的目标?
数据挖掘
强化学习
可能性
2022-02-23 00:39:43
1个回答
假设是来自的采样轨迹有回报然后我们将预期奖励(我们的成本函数)定义为:
在哪里=.
请注意,pdf这是状态和动作的联合概率分布。因此期望来自:
这就是您需要整合大量状态和操作的原因。是初始状态的分布,独立于动作的积分,因此它可以脱离第二个积分。取联合分布的对数, 代入并对第一个等式的两边进行微分,得到一个等式 wrt您可以计算的参数和数量,以便您可以估计梯度.
我对您的符号不是很熟悉(我认为您在硕士论文中找到了它),但这是一般方法。
其它你可能感兴趣的问题

