为什么 GLIE+MC 控制算法使用单集的蒙特卡罗评估?

人工智能 强化学习 蒙特卡罗方法
2021-11-03 12:06:18

GLIE+MC控制算法:

在此处输入图像描述

我的问题是为什么这个算法只使用一个蒙特卡洛插曲(在 PE 步骤期间)来计算Q(s,a)? 据我了解,这有以下缺点:

  • 如果我们有多个终端状态,那么我们只会达到一个(每个策略迭代步骤 PE+PI)。
  • 我们极不可能访问所有状态(在训练期间),以及用于探索常数的流行调度算法ϵ=1/k在哪里k显然是集数,确保探索衰减非常非常迅速。这确保了我们在整个培训期间永远不会访问一个州。

那么为什么该算法使用单个 MC 情节,为什么不在单个策略迭代步骤中使用多个情节,以便代理更好地了解环境呢?

1个回答

我觉得一般的答案是我们希望尽可能高效地从经验中学习。

这里的策略改进总是会产生等效或更好的策略,因此延迟改进步骤以收集更多情节只会减慢学习速度。

我还要指出,经常使用不同类型的蒙特卡洛学习。相反,更新速度通常由新的超参数控制α,而不是跟踪访问次数。然后 Q 估计值更新如下:

QQ+α(GQ)

的价值α然后让您调整发生了多少评估与改进。这称为常数阿尔法蒙特卡洛。这通常被用作介绍 TD 方法的垫脚石,例如,在 Sutton 和 Barto 书中的 6.1 中。