我使用神经网络作为强化学习的函数逼近器。为了让它训练得好,我需要选择一个好的学习率。挑选一个很难,所以我阅读了以编程方式选择学习率的方法。我看到了这篇博客文章,寻找良好的学习率和单周期政策,关于寻找周期性学习率和寻找良好的学习率界限。
所有关于这种方法的文章都讨论了在数据中测量不同批次的损失。但是,据我了解,在强化学习中,任务实际上并没有任何“批次”,它们只是具有可以由环境生成任意多次的情节,这也提供了奖励,然后用于优化网络.
有没有办法将批量大小的概念转化为强化学习,或者将这种循环学习率方法与强化学习结合使用?