根据我的研究,我看到了很多使用评论家网络来估计价值函数的策略上的 AC 方法. 价值函数的贝尔曼方程如下:
由于公式中的当前策略以及我们的方法符合策略这一事实,因此没有重播缓冲区是有道理的。但是,我真的不明白为什么没有人使用目标网络来稳定批评家的训练过程,就像我们在 DQN 中所拥有的那样,即 2015 年发布的变体。有没有人对此有想法并可能被引用?
我知道 DDPG 使用具有固定目标网络的评论家,但请注意,它是一个真正的非策略参与者评论家。“真实”是指这不是由于重要性抽样。
不得不提的是,我可以想象一些东西,但我不确定它是否真实。如果我们有一个目标网络,这意味着我们正在尝试找到一个确定性的、在 DQN 的情况下是最优的策略,同时我们正在学习当前策略的数据,用于与评论家的演员-评论家案例。