蒙特卡洛在这句话中的意思

机器算法验证 机器学习 术语 蒙特卡洛 强化学习
2022-04-05 10:45:59

这是来自 Ng, Russell (2001) 的论文“逆强化学习算法”

我们假设我们有能力在 MDP 中模拟轨迹(从初始状态s0) 在最优策略下,或在我们选择的任何策略下。对于每项政策π我们将考虑(包括最优的),我们将需要一种估计方法 Vπ(s0)对于任何设置αi的。为此,我们首先执行m Monte Carlo_下的轨迹 π.

很抱歉引述过长。最后一句中的“蒙特卡洛”是什么意思?

我的第一个想法是一次又一次地运行模拟m次。但是再想一想,我可能就大错特错了。

2个回答

Ng 和 Russell 似乎在说的是,对于每项政策π他们模拟m从点开始的过程的“可能”结果s0. “轨迹”似乎是指模拟过程在时间上可能的发展——模拟产生的不同可能场景。所以你是对的,蒙特卡洛在这里代表“模拟”(另见这个线程)。

蒙特卡洛在这里仅仅意味着使用抽样来估计值。实际上,这意味着收集一系列(状态,动作)对,即使用一些任意策略的轨迹,从中您可以计算相关数量V,例如 等