机器算法验证 - 蒙特卡洛在这句话中的意思 - 吾爱随笔录

蒙特卡洛在这句话中的意思

机器算法验证机器学习术语蒙特卡洛强化学习

2022-04-05 10:45:59

这是来自 Ng, Russell (2001) 的论文“逆强化学习算法”

我们假设我们有能力在 MDP 中模拟轨迹（从初始状态 $s_0$ ) 在最优策略下，或在我们选择的任何策略下。对于每项政策 $\pi$ 我们将考虑（包括最优的），我们将需要一种估计方法 $V^{\pi}(s_0)$ 对于任何设置 $\alpha_i$ 的。为此，我们首先执行 $m$ $\underline{\text{Monte Carlo}}$ 下的轨迹 $\pi$ .

很抱歉引述过长。最后一句中的“蒙特卡洛”是什么意思？

我的第一个想法是一次又一次地运行模拟 $m$ 次。但是再想一想，我可能就大错特错了。

2个回答

Ng 和 Russell 似乎在说的是，对于每项政策 $\pi$ 他们模拟 $m$ 从点开始的过程的“可能”结果 $s_0$ . “轨迹”似乎是指模拟过程在时间上可能的发展——模拟产生的不同可能场景。所以你是对的，蒙特卡洛在这里代表“模拟”（另见这个线程）。

蒙特卡洛在这里仅仅意味着使用抽样来估计值。实际上，这意味着收集一系列（状态，动作）对，即使用一些任意策略的轨迹，从中您可以计算相关数量V，例如等

其它你可能感兴趣的问题

上一篇当数据集大小不是 mini-batch 大小的倍数时，最后一个 mini-batch 应该更小，还是包含其他批次的样本？下一篇分析具有多个治疗组和多个测量的重复测量实验