我是强化学习的新手。对于实习,我目前正在使用带有事后经验重放 (HER)的双深度 Q 网络训练 Atari 的“Montezuma's Revenge” (另请参阅这篇文章)。
HER 应该缓解奖励稀疏问题。但是由于奖励太稀疏了,我还添加了一个随机网络蒸馏 (RND)(另请参阅这篇文章)来鼓励代理探索新状态,当它达到以前未被发现的状态时给予更高的奖励和当它到达之前多次访问过的状态时,奖励会降低。这是我添加到游戏本身给予的外在奖励的内在奖励。我还使用了衰减的贪婪 epsilon 策略。
这种方法的效果如何?因为我已经将它设置为运行 10,000 集,并且模拟非常慢,因为 HER 中的小批量梯度下降步骤。这里有多个超参数。在实施 RND 之前,我考虑过塑造奖励,但在这种情况下这是不切实际的。我可以从我目前的方法中得到什么?OpenAI 关于 RND 的论文引用了 RND 在 Montezuma's Revenge 上的出色结果。但他们显然使用了 PPO。