机器算法验证 - 优势演员评论家和TD演员评论家之间的区别？ - 吾爱随笔录

机器算法验证强化学习

2022-03-13 08:18:05

我有一个关于强化学习中的演员评论方法的问题。

在这些幻灯片 ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) 中解释了不同类型的演员评论家。在最后一张幻灯片中提到了优势演员评论家和 TD 演员评论家：

但是当我看幻灯片“估计优势函数（2）”时，据说优势函数可以用 td 误差来近似。然后更新规则以与 TD actorcritic 相同的方式包含 td 错误。

那么优势演员评论家和td演员评论家实际上是一样的吗？还是有我看不到的区别？

2个回答

优势可以通过 TD 误差来近似。这可能很有帮助，特别是如果您想在每次转换后 $\theta$

对于批处理方法，您可以计算例如通过拟合的 Q 迭代和随后的。使用它，您具有一般优势函数，并且策略的梯度变化可能会更加稳定，因为它将更接近全局/实际优势函数。 $Q_w(A,S)$ $V(S)$

它们是不同的。优势是行动价值和状态价值之间的差异。TD误差是价值函数想要最小化的误差项。

TD 误差可用于近似优势。还有其他近似优势的方法，例如(return - state_value)。

其它你可能感兴趣的问题