在 DeepMind 关于 Atari 视频游戏的深度 Q-Learning 的论文(此处)中,他们在训练期间使用 epsilon-greedy 方法进行探索。这意味着当在训练中选择一个动作时,它要么被选为具有最高 q 值的动作,要么被选为随机动作。在这两者之间进行选择是随机的,并且基于 epsilon 的值,并且 epsilon 在训练期间被退火,因此最初会采取许多随机动作(探索),但随着训练的进行,会采取许多具有最大 q 值的动作(开发)。
然后,在测试过程中,他们也使用了这种 epsilon-greedy 方法,但 epsilon 的值非常低,因此对探索有很强的偏见,倾向于选择具有最高 q 值的动作而不是随机动作。但是,有时仍会选择随机动作(5% 的时间)。
我的问题是:
既然已经完成了培训,为什么此时还需要进行任何探索?
如果系统已经学习了最优策略,那么为什么不能总是选择具有最高 q 值的动作呢?
不应该只在训练中进行探索,然后一旦学习了最优策略,代理就可以反复选择最优动作吗?