人工智能 - 后见之明的体验回放中的优化过程是如何运作的？ - 吾爱随笔录

我正在阅读以下研究论文Hindsight Experience Replay。这篇论文介绍了一个名为 Hindsight Experience Replay (HER) 的概念，它基本上试图缓解臭名昭著的稀疏奖励问题。它基于这样一种直觉，即人类不断尝试并从过去的失败经历中学习一些有用的东西。

我几乎完全理解了这个概念。但是在论文中提出的算法中，我并不真正了解优化是如何工作的。一旦添加了虚构的轨迹，我们就有了状态-目标-动作依赖性。这意味着我们的 DQN 应该根据输入状态和我们追求的目标来预测 Q 值（论文提到 HER 对多 RL 也非常有用）。

这是否意味着我需要向我的 DQN 添加另一个输入特征（目标）？一个输入状态和一个输入目标，作为我的 DQN 的两个输入特征，它基本上是一个 CNN？

因为在优化步骤中，他们提到我们需要从回放缓冲区中随机采样轨迹并使用这些轨迹来计算梯度。现在计算没有目标的 Q 值是没有意义的，因为那样我们就会得到重复的值。

有人可以帮助我了解优化是如何在这里进行的吗？

我正在使用带有事后经验回放 (HER) 的双 DQN 训练 Atari 的“Montezuma's Revenge”。