数据挖掘 - 具有衰减 epsilon 的 DQN - 吾爱随笔录

数据挖掘机器学习强化学习 dqn

2022-02-22 18:58:56

我是强化学习的新手。我正在研究衰减 epsilon 的 DQN。我遇到了这样的例子：

集数 = 91

伽玛 = 0.2

EPSILON_DECAY = 0.999

MIN_EPSILON = 0.01

MAX_EPSILON = 1

我的问题是：

1个回答

如果您将 epsilon 衰减设置为 0.999，您将需要 $ϵ_{m a x} \cdot ϵ_{d e c a y}^{x} = ϵ_{m i n} 1 \cdot {0.999}^{x} = 0.01 x \approx 4603$ $\epsilon_{max} \cdot \epsilon_{decay}^x = \epsilon_{min} \\ 1 \cdot 0.999^x = 0.01 \\ x \approx 4603$ 4603 集达到最小 epsilon。91集后你会到达 $ϵ_{c u r r e n t} = ϵ_{m a x} \cdot ϵ_{d e c a y}^{e p i s o d e s} = 1 \cdot {0.999}^{91} \approx 0.913$ $\epsilon_{current} = \epsilon_{max} \cdot \epsilon_{decay}^{episodes} = 1 \cdot 0.999^{91} \approx 0.913$ 这正是您在情节中可以看到的。这不是问题，但请记住，这个模型仍然会随机移动超过 91%。
平均奖励不应随着时间的推移而减少。这可能意味着一些事情，例如 dqn 算法中的错误或模型中的学习率太高。最好的调试方法是从尽可能简单的环境开始，让你的模型学会玩它，然后才增加难度。

其它你可能感兴趣的问题