优势演员评论家和TD演员评论家之间的区别?

机器算法验证 强化学习
2022-03-13 08:18:05

我有一个关于强化学习中的演员评论方法的问题。

在这些幻灯片 ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) 中解释了不同类型的演员评论家。在最后一张幻灯片中提到了优势演员评论家和 TD 演员评论家:

在此处输入图像描述

但是当我看幻灯片“估计优势函数(2)”时,据说优势函数可以用 td 误差来近似。然后更新规则以与 TD actorcritic 相同的方式包含 td 错误。

那么优势演员评论家和td演员评论家实际上是一样的吗?还是有我看不到的区别?

2个回答

优势可以通过 TD 误差来近似。这可能很有帮助,特别是如果您想在每次转换后θ

对于批处理方法,您可以计算例如通过拟合的 Q 迭代和随后的使用它,您具有一般优势函数,并且策略的梯度变化可能会更加稳定,因为它将更接近全局/实际优势函数。Qw(A,S)V(S)

它们是不同的。优势是行动价值和状态价值之间的差异。TD误差是价值函数想要最小化的误差项。

TD 误差可用于近似优势。还有其他近似优势的方法,例如(return - state_value)