Twin Delayed Deep Deterministic (TD3)策略梯度受到双 Q 学习和双 DQN 的启发。在双 Q 学习中,我理解 Q1 和 Q2 是独立的,因为它们是在不同的样本上训练的。在双 DQN 中,我理解目标 Q 和当前 Q 是相对独立的,因为它们的参数完全不同。
但在 TD3 中,Q1 和 Q2 的训练目标完全相同。如果它们的参数初始化相同,那么它们的输出将没有差异,算法将等于 DQN。我能说的 Q2 与 Q1 的独立性/差异的唯一来源是它们参数初始化的随机性。但是随着对同一目标的训练,我认为这种独立性会随着它们收敛到相同的目标值而变得越来越小。所以我不太明白为什么 TD3 在对抗 Q-learning 中的高估方面起作用。