我正在从David Silver的讲座中学习强化学习,他说蒙特卡洛方法没有偏见并且具有非常高的方差。但我不明白在什么意义上定义了偏差和方差。
在本文中,高方差背后的原因解释为:
我们在完成一集之前采取了许多步骤,然后才更新我们的估计,这一事实在更新中引入了大量的方差。
但是任何人都可以给出这种场景的直观例子吗?我也不明白蒙特卡洛方法如何没有偏见。
我正在从David Silver的讲座中学习强化学习,他说蒙特卡洛方法没有偏见并且具有非常高的方差。但我不明白在什么意义上定义了偏差和方差。
在本文中,高方差背后的原因解释为:
我们在完成一集之前采取了许多步骤,然后才更新我们的估计,这一事实在更新中引入了大量的方差。
但是任何人都可以给出这种场景的直观例子吗?我也不明白蒙特卡洛方法如何没有偏见。
在 RL 中,对于价值函数,偏差和方差指的是价值函数的不同类型估计的行为。值函数的真实值是从特定起始状态(以及动作值的动作)的预期回报,假设所有动作都是根据正在评估的策略选择的。对于控制问题,您可以只针对最优策略,但偏差和方差是相对于策略的当前“最佳猜测”考虑的。对于蒙特卡洛控制,这要么是关于当前 Q 估计的贪婪策略,要么- 对相同的贪婪(分别用于离策略和策略控制)。
动作价值函数的定义是
由此我们几乎可以看出,蒙特卡洛估计是无偏的。这是因为单个蒙特卡罗估计由下式给出
它显然是由 Q 的定义给出的相同随机函数的样本。它是无偏的,就像掷骰子是对掷骰子的预期结果的无偏估计一样。
方差稍微复杂一些。从根本上说,方差很大,因为回报是许多随机变量的总和(,每一个都取决于分布,而不仅仅是奖励,而且在动作的选择上由政策和状态转换动态选择每个) 并且总和的方差是变量独立时的方差之和- 但是在 RL 中,可以高度相关。通常,MDP 的形式不能保证相关性,但通常情况下确实如此。因此,我认为您不会找到 Q 的 Monte Carlo 估计方差的通用公式,并且争论更多的是关于直觉和经验数据。
更容易看出,蒙特卡洛的方差通常高于一步时间差分方法的方差。基本TD 目标的公式(相当于回报来自蒙特卡洛)是
这只有固定数量的三个随机变量,这些随机变量是从正在使用的单个步骤中采样的。因此,您可以预期它的方差比基于更长轨迹的任何蒙特卡洛估计要小。它的最大问题是依赖于估计,因为在学习过程中,这不太可能是一个完美的估计。事实上,它偏向于任何起始值,对于简单的估计函数,它通常为零,或者在处理神经网络时是随机的。也就是说,低方差通常是一个决定因素,TD 学习在同一问题上需要的训练数据比 Monte Carlo 少。