人工智能 - 双深度Q学习有什么好的参考吗？ - 吾爱随笔录

双深度Q学习有什么好的参考吗？

人工智能强化学习 q学习参考请求深度学习

2021-11-02 08:56:58

我是强化学习的新手，但我已经知道深度 Q 学习和 Q 学习。现在，我想了解双深度 Q 学习。

你知道双深度 Q 学习有什么好的参考吗？

看了一些文章，但是有些文章没有提到loss是什么以及如何计算，所以很多文章都不完整。此外，Sutton 和 Barto（在他们的书中）也没有描述该算法。

请帮我学习双Q学习。

2个回答

如果您对双 Q 学习背后的理论感兴趣（不是很深！），参考论文将是Hado van Hasselt（2010）的双 Q 学习。

至于 Double deep Q-learning（也称为 DDQN，Double Deep Q-networks 的缩写），参考论文是Van Hasselt 等人的 Deep Reinforcement Learning with Double Q-learning 。（2016 年），正如ddaedalus 的回答中指出的那样。

至于loss是如何计算的，论文中并没有明确写出来。但是，您可以在Dueling DQN 论文中找到它，这是 Van Hasselt 是合著者的后续论文。在附录中，作者提供了 Double DQN 的伪代码。与您相关的部分是：

$y_{j}=\left\{\begin{array}{ll}r & \text { if } s^{\prime} \text { is terminal } \\ r+\gamma Q\left(s^{\prime}, a^{\max }\left(s^{\prime} ; \theta\right) ; \theta^{-}\right), & \text {otherwise}\end{array}\right.$

做一个有损失的梯度下降步骤 $\left\|y_{j}-Q(s, a ; \theta)\right\|^{2}$

这里， $y_j$ 是目标， $\theta$ 是正则网络的参数， $\theta^{-}$ 是目标网络参数。

这里最需要注意的是与 DQN 目标的区别： $y_{i}^{D Q N}=r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; \theta^{-}\right)$ .

在 DQN 中，我们根据参数评估 Q 值 $\theta^{-}$ 我们根据这些参数化的 Q 值采取最大行动 $\theta^{-}$ . 这样做的问题是它会导致高估偏差，尤其是在训练过程开始时，Q 值估计是嘈杂的。

为了解决这个问题，在双 DQN 中，我们取而代之的是根据使用计算的 Q 值取最大值 $\theta$ 我们评估的Q值 $a^{max}$ 基于一组不同的参数，即 $\theta^{-}$ .

如果您想通过观看视频讲座而不是阅读论文来了解更多信息，我建议您查看加州大学伯克利分校的 DRL 课程中的这个讲座，教授 (Sergey Levine) 在其中通过示例详细讨论了这一点.

您应该首先阅读 Double DQN 的介绍性论文。

https://arxiv.org/abs/1509.06461

然后，根据您想做的事情，搜索使用此方法的其他相关论文。

其它你可能感兴趣的问题

上一篇尝试设计奖励函数时有哪些最佳实践？下一篇人工智能是否已经被用于制药行业来对抗 COVID-19？