衰变有优势吗εϵQ-Learning期间?

人工智能 强化学习 q学习 收敛 epsilon-贪婪策略 探索策略
2021-10-30 11:17:20

如果代理正在关注ϵ- 从 Q 派生的贪婪策略,衰减有什么好处ϵ虽然ϵ收敛不需要衰减吗?

1个回答

是的,Q-learning 至少从两个方面受益于衰减的 epsilon:

  • 早期探索。密切遵循初始化网络所暗示的任何策略几乎没有意义,从随机策略开始将了解更多关于环境变化的信息。在 DQN 中,在使用时最初填充体验重放表是相当常见的ϵ=1.0或其他有效的随机策略。

  • 后期细化。Q-learning 只能从它所拥有的经验中学习。过于随机的行为策略可能无法经历足够多的接近最优状态的状态,从而无法获得足够的统计数据来克服方差。在更困难的情况下,即使结合它曾经观察到的所有不同转换,它也可能永远不会体验到整个最佳轨迹。

此外,当使用神经网络等函数逼近器时,目标策略的预测将受到经验回放记忆中状态和动作分布的影响。如果那是偏向于一个非常不同的行为策略的状态分布,那么基本的 Q 学习没有很好的方法来调整它——它调整行为和目标策略之间预期回报的差异,而不是观察到的分布状态。事实上,这仍然是一个有点悬而未决的问题,您希望代理从错误和不完美的行为中学习以避免它,但您不希望这些错误扭曲对最优策略下应该发生的情况的预测。神经网络等函数逼近受输入数据分布的影响,ϵ如果使用应该相对较低ϵ-贪婪的。

一个典型的实现可能从ϵ=1.0,为每个时间步或每集设置一个衰减因子,例如0.999每集,至少ϵ=0.01. 这些都是超参数,您可以根据问题进行调整。