为什么我们不在 Q-Learning 中使用重要性采样率,即使 Q-Learning 是一种 off-policy 方法?
重要性抽样用于通过使用未从分布中提取的数据来计算随机变量的期望。考虑采用蒙特卡洛平均值来计算.
在数学上,期望定义为
在哪里表示我们的概率质量函数,我们可以通过
在哪里模拟自.
现在,我们可以将之前的期望重写为
所以我们可以使用蒙特卡洛平均来计算期望值
数据在哪里现在从模拟.
当我们使用非策略方法时,通常在 RL 中使用重要性采样,即我们用来计算我们的行为的策略与我们想要评估的策略不同。因此,我想知道为什么我们不在 Q-learning 中使用重要性采样率,即使它被认为是一种离策略的方法?