优势函数 - 方差减少

数据挖掘 机器学习 强化学习
2022-03-16 13:26:25

在解释优势函数时,通常声称使用基线可以减少方差。我没有找到任何具体的参考来证明这一点。

这是控制变量的应用还是类似的东西?

任何人都可以为减少方差提供一些参考或正式的理由吗?

1个回答

我假设您指的是策略梯度估计。将任何类型的函数添加到您的策略估计中,这取决于环境的状态,首先,不会使您的梯度估计器产生偏差(此处证明)。

从动作价值函数中减去基线(从而形成优势函数)的基本思想是,如果从该估计量中减去一个常数,则策略梯度的无偏估计量仍然是无偏的。然后,可以适当地选择该常数,以通过优化来减少新估计器的方差。如果你有访问权限,你可以在 Statistical Reinforcement Learning: Modern Machine Learning Approaches 的 7.2.2 部分找到一个很好的解释。还有 [ 2 ] 和 [ 3 ] 中的第 3 节。

正如您所提到的,它可以被视为一个控制协变量加法 [ 4 ],用于减少蒙特卡洛估计中的方差。该函数的一个不错的选择是使用通常的值函数 (V(s)) 这减少了您估计的方差。

希望能帮助到你!