如何计算策略梯度函数的优势?

人工智能 强化学习 目标函数 政策梯度 加强
2021-11-07 06:56:39

根据我对 REINFORCE 策略梯度法的理解,我们根据优势轻轻地微调动作的概率。更具体地说,正面优势会增加概率,负面优势会降低概率。

那么,在给定实际折扣奖励(剧集的总奖励)和仅输出动作概率的策略网络的情况下,我们如何计算优势?

2个回答

首先让我们注意优势函数的定义:

A(s,a)=Q(s,a)V(s),

在哪里Q(s,a)是动作价值函数和V(s)是状态值函数。从理论上讲,您可以用两个不同的函数逼近器来表示这些,但这将是非常低效的。但是,请注意

Q(s,a)=s,rP(s,r|s,a)(r+V(s)=E[r+V(s)|a,s],
所以我们实际上可以使用单个函数逼近,对于V(s), 完全代表优势函数。要优化此函数逼近器,您将在剧集的每个步骤中使用回报,例如您提到的 REINFORCE 算法。

优势基本上是收到的实际回报和基线的函数。基线的功能是确保只有优于平均水平的行动才能获得积极的推动。

估计基线的一种方法是使用价值函数逼近器。在每一步,您都训练一个 NN,使用通过当前策略收集的轨迹来预测状态的价值函数。

我希望能回答你的问题。