人工智能 - 我们可以在 epsilon 变小时就停止训练吗？ - 吾爱随笔录

我是强化学习的新手。

由于它在 RL 中很常见， $\epsilon$ - 使用贪婪搜索行为/探索。所以，在训练之初， $\epsilon$ 很高，因此选择了很多随机动作。随着时间的推移， $\epsilon$ 减少，我们经常选择最好的行动。

我想知道，例如在 Q-Learning 中，如果 $\epsilon$ 很小，例如 0.1 或 0.01，Q 值真的还在变化吗？他们只是改变了他们的方向，即最好的动作仍然是最好的动作，但 Q 值进一步发散，还是这些值真的再次改变了，所以最好的动作总是在给定的状态下改变？
如果 Q 值确实仍然有很大的变化，是因为我们仍然有剩余的随机动作吗？ $\epsilon>0$ 还是会在 $\epsilon=0$ ?