我应该以同样的方式衰减学习率和探索率吗?

人工智能 强化学习 深度学习 超参数 学习率 探索策略
2021-11-10 03:17:20

我应该以同样的方式衰减学习率和探索率吗?什么是探索和学习率衰减太慢和太快?还是因型号而异?

1个回答

首先,我想说的是有理由让学习率 (LR) 和探索率 (ER) 出现相同的衰减:它们以相同的规模发挥作用(您将训练模型的连续批次的数量) . 但如果我细化分析,我宁愿说选择它们在相同的范围内是一个原因,即接近1,但不是专门在相同的数字。

  • 对于 LR 衰减,人们通常选择非常接近 1(这可能意味着真正不同的东西,例如 0.98 或 0.997),因为它的播放范围很大,而且您不希望 LR 消失得太残酷。

  • 但是,ER 衰减的选择可能因模型而异。它取决于 ER 的初始值(如果您的 ER 最初很低,您不想快速衰减 ER),还取决于模型的“学习速度”:如果您的模型在开始时有效学习,您可能想要快速降低 ER 以减少动作的噪音,假设你在开始时做了足够的探索(但我认为最后一个观点更具争议性)。你可以在这里找到一篇有趣的论文,作者尝试了不同的 ER 衰减,发现对于 CartPole 环境,0.99 是最好的。