证明向 REINFORCE 算法添加基线会降低方差

机器算法验证 强化学习
2022-03-01 01:20:54

REINFORCE 的一个广泛使用的变体是减去基线值b从返回Gt减少梯度估计的方差,使得

θJ(θ)sd(s|πθ)a(qπ(s,a)b(s))θπ(a|s,θ)

我还没有找到任何证据证明基线可以减少梯度估计的方差,有吗?

1个回答

我不知道任何数学证明,但这种解释可能会有所帮助:

假设我们所有的奖励都是积极的。使用您在上面编写的没有基线函数的公式可以提高所有操作的概率,因为我们总是将对数概率与一些正奖励相乘。这会减少方差,这就是为什么我们希望比平均值更好地提高行动的概率。