双深度Q学习有什么好的参考吗?

人工智能 强化学习 q学习 参考请求 深度学习
2021-11-02 08:56:58

我是强化学习的新手,但我已经知道深度 Q 学习和 Q 学习。现在,我想了解双深度 Q 学习。

你知道双深度 Q 学习有什么好的参考吗?

看了一些文章,但是有些文章没有提到loss是什么以及如何计算,所以很多文章都不完整。此外,Sutton 和 Barto(在他们的书中)也没有描述该算法。

请帮我学习双Q学习。

2个回答

如果您对双 Q 学习背后的理论感兴趣(不是很深!),参考论文将是Hado van Hasselt(2010)的双 Q 学习

至于 Double deep Q-learning(也称为 DDQN,Double Deep Q-networks 的缩写),参考论文是Van Hasselt 等人的 Deep Reinforcement Learning with Double Q-learning 。(2016 年),正如ddaedalus 的回答中指出的那样

至于loss是如何计算的,论文中并没有明确写出来。但是,您可以在Dueling DQN 论文中找到它,这是 Van Hasselt 是合著者的后续论文。在附录中,作者提供了 Double DQN 的伪代码。与您相关的部分是:

yj={r if s is terminal r+γQ(s,amax(s;θ);θ),otherwise

做一个有损失的梯度下降步骤yjQ(s,a;θ)2

这里,yj是目标,θ是正则网络的参数,θ是目标网络参数。

这里最需要注意的是与 DQN 目标的区别: yiDQN=r+γmaxaQ(s,a;θ).

在 DQN 中,我们根据参数评估 Q 值θ我们根据这些参数化的 Q 值采取最大行动 θ. 这样做的问题是它会导致高估偏差,尤其是在训练过程开始时,Q 值估计是嘈杂的。

为了解决这个问题,在双 DQN 中,我们取而代之的是根据使用计算的 Q 值取最大值θ我们评估的Q值amax基于一组不同的参数,即θ.

如果您想通过观看视频讲座而不是阅读论文来了解更多信息,我建议您查看加州大学伯克利分校的 DRL 课程中的这个讲座,教授 (Sergey Levine) 在其中通过示例详细讨论了这一点.

您应该首先阅读 Double DQN 的介绍性论文。

https://arxiv.org/abs/1509.06461

然后,根据您想做的事情,搜索使用此方法的其他相关论文。