目标网络的使用是为了减少使用半梯度目标训练的非策略样本可能发生的价值分歧的机会。在 Deep Q 网络中,使用了半梯度 TD,随着经验回放,训练可能会出现分歧。
目标网络是一个缓慢变化的网络,旨在缓慢跟踪主要价值网络。在Mnih 2013中,它被设计为匹配主网络每个脚步。还有另一种方法可以在每一步缓慢更新方向上的权重以匹配主网络。对某人来说,后者称为Polyak 更新。
我做了一些非常有限的实验,并且看到了相同的更新率,例如, Polyak 更新将以 0.1 的速率更新,我通常看到 Polyak 更新以提供更平滑的进度和更快的收敛。我的实验绝不是结论性的。
因此,我会问是否知道在更广泛的任务和设置中,哪一个表现更好、收敛更快或进展更顺利?