蒙特卡洛 (MC) 方法是使用某种形式的随机性或抽样的方法。例如,我们可以使用 MC 方法来近似正方形内圆的面积:我们在正方形内生成随机 2D 点,并计算圆内外点的数量。
在强化学习中,MC 方法是一种从环境中“采样”经验(以“返回”的形式)的方法,以便逼近例如价值函数。
时差算法,如-学习,也执行某种形式的抽样:它使用随机策略选择一个动作(例如-greedy) 并观察奖励和下一个状态。所以,不能-learning也算MC方法?MC 方法可以基于模型吗?
蒙特卡洛 (MC) 方法是使用某种形式的随机性或抽样的方法。例如,我们可以使用 MC 方法来近似正方形内圆的面积:我们在正方形内生成随机 2D 点,并计算圆内外点的数量。
在强化学习中,MC 方法是一种从环境中“采样”经验(以“返回”的形式)的方法,以便逼近例如价值函数。
时差算法,如-学习,也执行某种形式的抽样:它使用随机策略选择一个动作(例如-greedy) 并观察奖励和下一个状态。所以,不能-learning也算MC方法?MC 方法可以基于模型吗?
在强化学习 (RL) 中,蒙特卡洛这个术语的使用已经按照惯例进行了轻微调整,以仅指一些特定的事物。
“蒙特卡洛”的更普遍用途是用于使用随机数进行采样的模拟方法 - 通常作为其他困难分析或详尽搜索的替代品。
在 RL 中,蒙特卡洛方法通常被认为是基于非自举样本的方法来估计回报。这是 RL 中的一个标签约定——可能是因为有人将初始无模型学习器称为“蒙特卡洛方法”,并且这个名称一直存在,而许多改进和新想法已经以不同的名称发布。
该术语的历史用法很重要,因为如果您提到您使用的是“蒙特卡洛控制”,对于大多数读者来说,它通常意味着 RL 中非常具体的方法子集。
那么,𝑄-learning 也不能被认为是一种 MC 方法吗?
或许在一般意义上。如果在计算机上模拟环境以供代理学习,则该论点可能更有说服力。
但是,如果您开始单方面将 Q-learning 称为 MC 方法,您可能只会让那些在 RL 中学习过约定的人感到困惑。
MC 方法可以基于模型吗?
一般来说,是的,因为可以对模型进行抽样以进行规划,并且还可以对策略进行单独抽样——因此可以在有或没有模型的情况下运行 MC 方法——这取决于您是否从模型中抽样采取“虚拟动作” "(例如计划或改进您的代理)或从环境中采取实际行动。许多 RL 技术模糊了在线学习和规划之间的界限。例如,使用模拟环境或历史数据可以作为对真实环境的规划。
Monte Carlo Tree Search 是在 RL 框架中使用术语“Monte Carlo”的基于模型的技术的一个示例。它在 DeepMind 的 AlphaZero 中广为人知,用于在自我博弈期间改进策略和价值估计。
蒙特卡洛和 [其他] 无模型算法之间有什么关系?
在 RL 的上下文中,蒙特卡洛作为一种估计预期效用(或回报)的方法被提出——通过从环境和策略中采样直到完整的轨迹可用:
MC 与时间差分 (TD) 方法形成对比,例如 Q-learning,后者使用贝尔曼方程对bootstrap估计进行采样:
这两种方法可以以多种方式组合,包括 TD() 方法。与TD(),如果你设置那么该算法与单步 TD 学习相同,如果您设置那么它与蒙特卡洛方法非常相似。通常将其设置为某个中间值比任何一个极端都更有效。