人工智能 - 为什么 GLIE+MC 控制算法使用单集的蒙特卡罗评估？ - 吾爱随笔录

人工智能强化学习蒙特卡罗方法

2021-11-03 12:06:18

GLIE+MC控制算法：

我的问题是为什么这个算法只使用一个蒙特卡洛插曲（在 PE 步骤期间）来计算 $Q(s,a)$ ? 据我了解，这有以下缺点：

如果我们有多个终端状态，那么我们只会达到一个（每个策略迭代步骤 PE+PI）。
我们极不可能访问所有状态（在训练期间），以及用于探索常数的流行调度算法 $\epsilon = 1/k$ 在哪里 $k$ 显然是集数，确保探索衰减非常非常迅速。这确保了我们在整个培训期间永远不会访问一个州。

那么为什么该算法使用单个 MC 情节，为什么不在单个策略迭代步骤中使用多个情节，以便代理更好地了解环境呢？

1个回答

我觉得一般的答案是我们希望尽可能高效地从经验中学习。

这里的策略改进总是会产生等效或更好的策略，因此延迟改进步骤以收集更多情节只会减慢学习速度。

我还要指出，经常使用不同类型的蒙特卡洛学习。相反，更新速度通常由新的超参数控制 $\alpha$ ，而不是跟踪访问次数。然后 Q 估计值更新如下：

Q \leftarrow Q + α (G - Q)

$Q \leftarrow Q + \alpha \left (G - Q \right)$

的价值 $\alpha$ 然后让您调整发生了多少评估与改进。这称为常数阿尔法蒙特卡洛。这通常被用作介绍 TD 方法的垫脚石，例如，在 Sutton 和 Barto 书中的 6.1 中。

其它你可能感兴趣的问题