我该如何腐烂在 Q 学习中?
目前,我正在衰减 epsilon,如下所示。我初始化为 1,然后,在每一集之后,我将它乘以一些(随它去),当它达到. 之后,我保持成为每时每刻。我认为这有一个可怕的后果。
所以,我需要一个衰减算法。我还没有找到关于它的脚本或公式,你能告诉我吗?
我该如何腐烂在 Q 学习中?
目前,我正在衰减 epsilon,如下所示。我初始化为 1,然后,在每一集之后,我将它乘以一些(随它去),当它达到. 之后,我保持成为每时每刻。我认为这有一个可怕的后果。
所以,我需要一个衰减算法。我还没有找到关于它的脚本或公式,你能告诉我吗?
您描述的方式往往是常见的方法。当然还有其他方法可以做到这一点,例如使用指数衰减,或者只在“成功”插曲后衰减,尽管在后一种情况下,我想你会想从一个较小的开始值,然后衰减较大。