人工智能 - 在强化学习中使用贪婪启发式初始设置深度 Q 网络的权重的最先进方法是什么？ - 吾爱随笔录

在强化学习中使用贪婪启发式初始设置深度 Q 网络的权重的最先进方法是什么？

人工智能强化学习训练智能代理启发式

2021-11-12 12:50:59

我对当前使用快速、贪婪启发式算法来加速强化学习中深度 Q 网络的学习的最先进方法感兴趣。在经典 RL 中，我最初根据从状态 S 与动作 a 进行的这种贪婪启发式运行的结果为状态-动作对 (S,a) 设置 Q 值。在设置神经网络来逼近 Q 函数时，这仍然是一个好主意吗？如果是，那么最佳的方法是什么？用贪婪启发式的知识帮助 DQN 的其他方法是什么？

对最先进论文的引用将不胜感激。

1个回答

您可以查看带有演示视频的Bootstrapped DQN。在没有阅读大量论文的情况下，作者似乎对特定实例使用了不同的抽样策略和行动指南。

为网络初始设置权重的另一种方法是创建移动数据集（正确、不正确等，只要它们是相关的）并让网络最初学习数据集。这也有助于调试，因为您可以看到网络是否可以实际学习数据集中使用的策略。学习数据集后，使用与 DQN 相同的学习网络并从较小的探索率开始（如 0.5 而不是 1.0）。

其它你可能感兴趣的问题

上一篇构建 ML 以根据用户绘图找到最接近的匹配图像下一篇它是否存在类似人类的人工智能？