为什么 Q2 在 Twin Delayed DDPG (TD3) 中或多或少是一个独立的估计?

人工智能 强化学习 q学习 dqn 深度学习 ddpg
2021-10-22 15:02:27

Twin Delayed Deep Deterministic (TD3)策略梯度受到双 Q 学习和双 DQN 的启发。在双 Q 学习中,我理解 Q1 和 Q2 是独立的,因为它们是在不同的样本上训练的。在双 DQN 中,我理解目标 Q 和当前 Q 是相对独立的,因为它们的参数完全不同。

但在 TD3 中,Q1 和 Q2 的训练目标完全相同。如果它们的参数初始化相同,那么它们的输出将没有差异,算法将等于 DQN。我能说的 Q2 与 Q1 的独立性/差异的唯一来源是它们参数初始化的随机性。但是随着对同一目标的训练,我认为这种独立性会随着它们收敛到相同的目标值而变得越来越小。所以我不太明白为什么 TD3 在对抗 Q-learning 中的高估方面起作用。

1个回答

我给论文作者发了邮件,他回复说参数初始化的随机性是 Q1 和 Q2 之间的唯一区别。这种差异在实践中就足够了。此外,TD3 方法更关注由函数逼近误差引起的高估,而不是环境中的随机性。