我对当前使用快速、贪婪启发式算法来加速强化学习中深度 Q 网络的学习的最先进方法感兴趣。在经典 RL 中,我最初根据从状态 S 与动作 a 进行的这种贪婪启发式运行的结果为状态-动作对 (S,a) 设置 Q 值。在设置神经网络来逼近 Q 函数时,这仍然是一个好主意吗?如果是,那么最佳的方法是什么?用贪婪启发式的知识帮助 DQN 的其他方法是什么?
对最先进论文的引用将不胜感激。
我对当前使用快速、贪婪启发式算法来加速强化学习中深度 Q 网络的学习的最先进方法感兴趣。在经典 RL 中,我最初根据从状态 S 与动作 a 进行的这种贪婪启发式运行的结果为状态-动作对 (S,a) 设置 Q 值。在设置神经网络来逼近 Q 函数时,这仍然是一个好主意吗?如果是,那么最佳的方法是什么?用贪婪启发式的知识帮助 DQN 的其他方法是什么?
对最先进论文的引用将不胜感激。
您可以查看带有演示视频的Bootstrapped DQN。在没有阅读大量论文的情况下,作者似乎对特定实例使用了不同的抽样策略和行动指南。
为网络初始设置权重的另一种方法是创建移动数据集(正确、不正确等,只要它们是相关的)并让网络最初学习数据集。这也有助于调试,因为您可以看到网络是否可以实际学习数据集中使用的策略。学习数据集后,使用与 DQN 相同的学习网络并从较小的探索率开始(如 0.5 而不是 1.0)。