具有衰减 epsilon 的 DQN

数据挖掘 机器学习 强化学习 dqn
2022-02-22 18:58:56

我是强化学习的新手。我正在研究衰减 epsilon 的 DQN。我遇到了这样的例子:

集数 = 91

伽玛 = 0.2

EPSILON_DECAY = 0.999

MIN_EPSILON = 0.01

MAX_EPSILON = 1

我的问题是:

  1. 如果 epsilon 没有达到 MIN_EPSILON 是否正确?
  2. 奖励有什么问题吗——奖励不是越来越高,而是表现不同——它会随着时间的推移而减少?

爱普生

平均奖励

1个回答
  1. 如果您将 epsilon 衰减设置为 0.999,您将需要
    ϵmaxϵdecayx=ϵmin10.999x=0.01x4603
    4603 集达到最小 epsilon。91集后你会到达
    ϵcurrent=ϵmaxϵdecayepisodes=10.999910.913
    这正是您在情节中可以看到的。这不是问题,但请记住,这个模型仍然会随机移动超过 91%。
  2. 平均奖励不应随着时间的推移而减少。这可能意味着一些事情,例如 dqn 算法中的错误或模型中的学习率太高。最好的调试方法是从尽可能简单的环境开始,让你的模型学会玩它,然后才增加难度。