这是来自 Ng, Russell (2001) 的论文“逆强化学习算法”
我们假设我们有能力在 MDP 中模拟轨迹(从初始状态) 在最优策略下,或在我们选择的任何策略下。对于每项政策我们将考虑(包括最优的),我们将需要一种估计方法 对于任何设置的。为此,我们首先执行 下的轨迹 .
很抱歉引述过长。最后一句中的“蒙特卡洛”是什么意思?
我的第一个想法是一次又一次地运行模拟次。但是再想一想,我可能就大错特错了。
这是来自 Ng, Russell (2001) 的论文“逆强化学习算法”
我们假设我们有能力在 MDP 中模拟轨迹(从初始状态) 在最优策略下,或在我们选择的任何策略下。对于每项政策我们将考虑(包括最优的),我们将需要一种估计方法 对于任何设置的。为此,我们首先执行 下的轨迹 .
很抱歉引述过长。最后一句中的“蒙特卡洛”是什么意思?
我的第一个想法是一次又一次地运行模拟次。但是再想一想,我可能就大错特错了。