人工智能 - 蒙特卡罗和无模型算法之间有什么关系？ - 吾爱随笔录

蒙特卡罗和无模型算法之间有什么关系？

人工智能强化学习蒙特卡罗方法时差法比较无模型方法

2021-10-28 05:10:01

蒙特卡洛 (MC) 方法是使用某种形式的随机性或抽样的方法。例如，我们可以使用 MC 方法来近似正方形内圆的面积：我们在正方形内生成随机 2D 点，并计算圆内外点的数量。

在强化学习中，MC 方法是一种从环境中“采样”经验（以“返回”的形式）的方法，以便逼近例如价值函数。

时差算法，如 $Q$ -学习，也执行某种形式的抽样：它使用随机策略选择一个动作（例如 $\epsilon$ -greedy) 并观察奖励和下一个状态。所以，不能 $Q$ -learning也算MC方法？MC 方法可以基于模型吗？

1个回答

在强化学习 (RL) 中，蒙特卡洛这个术语的使用已经按照惯例进行了轻微调整，以仅指一些特定的事物。

“蒙特卡洛”的更普遍用途是用于使用随机数进行采样的模拟方法 - 通常作为其他困难分析或详尽搜索的替代品。

在 RL 中，蒙特卡洛方法通常被认为是基于非自举样本的方法来估计回报。这是 RL 中的一个标签约定——可能是因为有人将初始无模型学习器称为“蒙特卡洛方法”，并且这个名称一直存在，而许多改进和新想法已经以不同的名称发布。

该术语的历史用法很重要，因为如果您提到您使用的是“蒙特卡洛控制”，对于大多数读者来说，它通常意味着 RL 中非常具体的方法子集。

那么，𝑄-learning 也不能被认为是一种 MC 方法吗？

或许在一般意义上。如果在计算机上模拟环境以供代理学习，则该论点可能更有说服力。

但是，如果您开始单方面将 Q-learning 称为 MC 方法，您可能只会让那些在 RL 中学习过约定的人感到困惑。

MC 方法可以基于模型吗？

一般来说，是的，因为可以对模型进行抽样以进行规划，并且还可以对策略进行单独抽样——因此可以在有或没有模型的情况下运行 MC 方法——这取决于您是否从模型中抽样采取“虚拟动作” "（例如计划或改进您的代理）或从环境中采取实际行动。许多 RL 技术模糊了在线学习和规划之间的界限。例如，使用模拟环境或历史数据可以作为对真实环境的规划。

Monte Carlo Tree Search 是在 RL 框架中使用术语“Monte Carlo”的基于模型的技术的一个示例。它在 DeepMind 的 AlphaZero 中广为人知，用于在自我博弈期间改进策略和价值估计。

蒙特卡洛和 [其他] 无模型算法之间有什么关系？

在 RL 的上下文中，蒙特卡洛作为一种估计预期效用（或回报）的方法被提出——通过从环境和策略中采样直到完整的轨迹可用：

v_{π} (s) = E_{π} [\sum_{k = 0}^{T - t} γ^{k} R_{t + 1 + k} | S_{t} = s]

$v_{\pi}(s) = \mathbb{E}_{\pi}[\sum_{k=0}^{T-t} \gamma^k R_{t+1+k} | S_t = s ]$

MC 与时间差分 (TD) 方法形成对比，例如 Q-learning，后者使用贝尔曼方程对bootstrap估计进行采样：

v_{π} (s) = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) | S_{t} = s]

$v_{\pi}(s) = \mathbb{E}_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s ]$

这两种方法可以以多种方式组合，包括 TD( $\lambda$ ）方法。与TD（ $\lambda$ )，如果你设置 $\lambda = 0$ 那么该算法与单步 TD 学习相同，如果您设置 $\lambda = 1$ 那么它与蒙特卡洛方法非常相似。通常将其设置为某个中间值比任何一个极端都更有效。

其它你可能感兴趣的问题

上一篇ARKit 的面部追踪是如何工作的？下一篇使用 UMAP、PCA 或 t-SNE 找到分离超平面？