人工智能 - 在使用函数逼近时，为什么在 RL 问题中使用半梯度而不是全梯度？ - 吾爱随笔录

在使用函数逼近时，为什么在 RL 问题中使用半梯度而不是全梯度？

人工智能强化学习梯度下降 dqn 深度学习函数逼近

2021-10-29 12:41:53

半梯度方法在强化学习中效果很好，但如果可以计算，有什么理由不使用真正的梯度呢？

我在深度 Q 网络的推车杆问题上进行了尝试，它的表现比传统的半梯度差得多。这有具体的原因吗？

2个回答

半梯度方法在强化学习中效果很好，但如果可以计算，不使用真实梯度的原因是什么？

只是复杂性和额外的计算，在许多情况下是为了边际收益。

我在深度 Q 网络的推车杆问题上进行了尝试，它的表现比传统的半梯度差得多，这有什么具体原因吗？

如果不详细探索实现，就很难说。然而，DQN 本质上是一种不稳定的学习技术，在选择控制这种不稳定性并抵消学习率的超参数时需要小心：

从每一步的经验回放中训练的小批量大小
采用冷冻副本进行估计之间的训练步骤数*
你是否使用双重学习来避免最大化偏差（如果你有连续动作空间的细粒度离散化更重要）

真实梯度和半梯度方法之间的最佳选择有可能不同。

* 冻结的估算器可能是您实现中的重要线索。如果您使用这种冻结复制技术，它会对您应该如何计算真实梯度产生很大影响，因为更改参数将不再改变当前的 TD 目标 - 这是真实梯度方法所修复的。然而，为了获得真正的梯度而摆脱这种提高稳定性的添加可能会降低算法的稳定性——你可以尝试通过采用更大的小批量来解决这个问题。

只是为了让以后参考这篇文章的人有用：请参阅 Sutton 的强化学习书（第 2 版）示例 11.2。它提供了一个示例，说明为什么完全渐变不起作用。

其它你可能感兴趣的问题

上一篇为什么 LDA 在诊断 ADHD 方面的表现比 SVM 和朴素贝叶斯好得多？下一篇向量空间中的各个维度是否有意义？