我有一个关于强化学习中的演员评论方法的问题。
在这些幻灯片 ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) 中解释了不同类型的演员评论家。在最后一张幻灯片中提到了优势演员评论家和 TD 演员评论家:
但是当我看幻灯片“估计优势函数(2)”时,据说优势函数可以用 td 误差来近似。然后更新规则以与 TD actorcritic 相同的方式包含 td 错误。
那么优势演员评论家和td演员评论家实际上是一样的吗?还是有我看不到的区别?