REINFORCE 的一个广泛使用的变体是减去基线值从返回减少梯度估计的方差,使得
我还没有找到任何证据证明基线可以减少梯度估计的方差,有吗?
REINFORCE 的一个广泛使用的变体是减去基线值从返回减少梯度估计的方差,使得
我还没有找到任何证据证明基线可以减少梯度估计的方差,有吗?
我不知道任何数学证明,但这种解释可能会有所帮助:
假设我们所有的奖励都是积极的。使用您在上面编写的没有基线函数的公式可以提高所有操作的概率,因为我们总是将对数概率与一些正奖励相乘。这会减少方差,这就是为什么我们希望比平均值更好地提高行动的概率。