根据我对 REINFORCE 策略梯度法的理解,我们根据优势轻轻地微调动作的概率。更具体地说,正面优势会增加概率,负面优势会降低概率。
那么,在给定实际折扣奖励(剧集的总奖励)和仅输出动作概率的策略网络的情况下,我们如何计算优势?
根据我对 REINFORCE 策略梯度法的理解,我们根据优势轻轻地微调动作的概率。更具体地说,正面优势会增加概率,负面优势会降低概率。
那么,在给定实际折扣奖励(剧集的总奖励)和仅输出动作概率的策略网络的情况下,我们如何计算优势?
首先让我们注意优势函数的定义:
在哪里是动作价值函数和是状态值函数。从理论上讲,您可以用两个不同的函数逼近器来表示这些,但这将是非常低效的。但是,请注意
所以我们实际上可以使用单个函数逼近,对于, 完全代表优势函数。要优化此函数逼近器,您将在剧集的每个步骤中使用回报,例如您提到的 REINFORCE 算法。
优势基本上是收到的实际回报和基线的函数。基线的功能是确保只有优于平均水平的行动才能获得积极的推动。
估计基线的一种方法是使用价值函数逼近器。在每一步,您都训练一个 NN,使用通过当前策略收集的轨迹来预测状态的价值函数。
我希望能回答你的问题。