我是强化学习的新手,但我已经知道深度 Q 学习和 Q 学习。现在,我想了解双深度 Q 学习。
你知道双深度 Q 学习有什么好的参考吗?
看了一些文章,但是有些文章没有提到loss是什么以及如何计算,所以很多文章都不完整。此外,Sutton 和 Barto(在他们的书中)也没有描述该算法。
请帮我学习双Q学习。
我是强化学习的新手,但我已经知道深度 Q 学习和 Q 学习。现在,我想了解双深度 Q 学习。
你知道双深度 Q 学习有什么好的参考吗?
看了一些文章,但是有些文章没有提到loss是什么以及如何计算,所以很多文章都不完整。此外,Sutton 和 Barto(在他们的书中)也没有描述该算法。
请帮我学习双Q学习。
如果您对双 Q 学习背后的理论感兴趣(不是很深!),参考论文将是Hado van Hasselt(2010)的双 Q 学习。
至于 Double deep Q-learning(也称为 DDQN,Double Deep Q-networks 的缩写),参考论文是Van Hasselt 等人的 Deep Reinforcement Learning with Double Q-learning 。(2016 年),正如ddaedalus 的回答中指出的那样 。
至于loss是如何计算的,论文中并没有明确写出来。但是,您可以在Dueling DQN 论文中找到它,这是 Van Hasselt 是合著者的后续论文。在附录中,作者提供了 Double DQN 的伪代码。与您相关的部分是:
做一个有损失的梯度下降步骤
这里,是目标,是正则网络的参数,是目标网络参数。
这里最需要注意的是与 DQN 目标的区别: .
在 DQN 中,我们根据参数评估 Q 值我们根据这些参数化的 Q 值采取最大行动 . 这样做的问题是它会导致高估偏差,尤其是在训练过程开始时,Q 值估计是嘈杂的。
为了解决这个问题,在双 DQN 中,我们取而代之的是根据使用计算的 Q 值取最大值我们评估的Q值基于一组不同的参数,即.
如果您想通过观看视频讲座而不是阅读论文来了解更多信息,我建议您查看加州大学伯克利分校的 DRL 课程中的这个讲座,教授 (Sergey Levine) 在其中通过示例详细讨论了这一点.