机器算法验证 - 证明向 REINFORCE 算法添加基线会降低方差 - 吾爱随笔录

机器算法验证强化学习

2022-03-01 01:20:54

REINFORCE 的一个广泛使用的变体是减去基线值 $b$ 从返回 $G_t$ 减少梯度估计的方差，使得

\begin{aligned} \nabla_{θ} J (θ) & \propto \sum_{s} d (s | π_{θ}) \sum_{a} (q_{π} (s, a) - b (s)) \nabla_{θ} π (a | s, θ) \end{aligned}

$\begin{align} \nabla_\theta J(\theta) & \propto \sum_s d(s|\pi_\theta) \sum_a (q_\pi(s,a)-b(s)) \nabla_\theta \pi(a|s,\theta) \\ \end{align}$

我还没有找到任何证据证明基线可以减少梯度估计的方差，有吗？

1个回答

我不知道任何数学证明，但这种解释可能会有所帮助：

假设我们所有的奖励都是积极的。使用您在上面编写的没有基线函数的公式可以提高所有操作的概率，因为我们总是将对数概率与一些正奖励相乘。这会减少方差，这就是为什么我们希望比平均值更好地提高行动的概率。

其它你可能感兴趣的问题