Q-learning 中的每次试验后是否应该重新设置探索率?

人工智能 强化学习 q学习 开放式
2021-10-31 03:38:49

正如标题所说,我应该重新设置试验之间的探索率吗?

我目前正在执行 Open AI pendulum 任务,经过多次试验,我的模型开始播放但没有采取任何行动(即没有执行任何重大摆动)。我遵循的 Actor-Critic 教程没有重置探索率(链接),但总体上似乎有很多错误。

我认为应该重置它,因为模型可能从不同试验中的新未知情况开始,并且不知道不探索就知道该怎么做。

1个回答

探索率,通常参数化为 epsilon / ε,可以在每次试验中更改。这取决于模型的复杂性和目标。

最简单的做法是保持高探索率和固定。这意味着该模型将继续探索新的选项,即使不“利用”最佳可用选项。

另一种选择是在学习开始时将探索率设置为高,以便模型在空间中搜索可能的成功解决方案。然后,随着模型创建一组对给定状态成功的策略,探索率可以降低或衰减。勘探率衰减可以固定(即,随着时间的推移,勘探不断减少,开发利用更多)。探索率衰减可以是动态的和学习的。最后一个选项通常是最好的,但实施起来也最复杂。

敢于发现:探索策略对代理人绩效的影响”对此主题进行了更详细的介绍。