机器算法验证 - 蒙特卡洛方法的高方差背后的直觉是什么？ - 吾爱随笔录

蒙特卡洛方法的高方差背后的直觉是什么？

机器算法验证机器学习蒙特卡洛强化学习人工智能

2022-03-31 01:23:11

我正在从David Silver的讲座中学习强化学习，他说蒙特卡洛方法没有偏见并且具有非常高的方差。但我不明白在什么意义上定义了偏差和方差。

在本文中，高方差背后的原因解释为：

我们在完成一集之前采取了许多步骤，然后才更新我们的估计，这一事实在更新中引入了大量的方差。

但是任何人都可以给出这种场景的直观例子吗？我也不明白蒙特卡洛方法如何没有偏见。

1个回答

在 RL 中，对于价值函数，偏差和方差指的是价值函数的不同类型估计的行为。值函数的真实值是从特定起始状态（以及动作值的动作）的预期回报，假设所有动作都是根据正在评估的策略选择的。对于控制问题，您可以只针对最优策略，但偏差和方差是相对于策略的当前“最佳猜测”考虑的。对于蒙特卡洛控制，这要么是关于当前 Q 估计的贪婪策略，要么 $\epsilon$ - 对相同的贪婪（分别用于离策略和策略控制）。

动作价值函数的定义是

Q_{π} (s, a) = E_{π} [G_{t} | S_{t} = s, A_{t} = a] = E_{π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1} | S_{t} = s, A_{t} = a]

$Q_{\pi}(s,a) = \mathbb{E}_{\pi}[G_t | S_t=s, A_t=a] = \mathbb{E}_{\pi}[\sum_{k=0}^{\infty}\gamma^k R_{t+k+1} | S_t=s, A_t=a]$

由此我们几乎可以看出，蒙特卡洛估计是无偏的。这是因为单个蒙特卡罗估计由下式给出

\hat{q} (s_{t}, a_{t}) = \sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1}

$\hat{q}(s_t,a_t) = \sum_{k=0}^{\infty}\gamma^k r_{t+k+1}$

它显然是由 Q 的定义给出的相同随机函数的样本。它是无偏的，就像掷骰子是对掷骰子的预期结果的无偏估计一样。

方差稍微复杂一些。从根本上说，方差很大，因为回报是许多随机变量的总和（ $R_t ... \gamma^{T-t}R_T$ ，每一个都取决于分布，而不仅仅是奖励 $R$ ，而且在动作的选择上 $A$ 由政策和状态转换动态选择每个 $S$ ) 并且总和的方差是变量独立时的方差之和- 但是在 RL 中， $R_t$ 可以高度相关。通常，MDP 的形式不能保证相关性，但通常情况下确实如此。因此，我认为您不会找到 Q 的 Monte Carlo 估计方差的通用公式，并且争论更多的是关于直觉和经验数据。

更容易看出，蒙特卡洛的方差通常高于一步时间差分方法的方差。基本TD 目标的公式（相当于回报 $G_t$ 来自蒙特卡洛）是

\hat{q} (s_{t}, a_{t}) = r_{t + 1} + γ \hat{q} (s_{t + 1}, a_{t + 1})

$\hat{q}(s_t,a_t) = r_{t+1} + \gamma \hat{q}(s_{t+1},a_{t+1})$

这只有固定数量的三个随机变量，这些随机变量是从正在使用的单个步骤中采样的。因此，您可以预期它的方差比基于更长轨迹的任何蒙特卡洛估计要小。它的最大问题是依赖于估计 $\hat{q}$ ，因为在学习过程中，这不太可能是一个完美的估计。事实上，它偏向于任何起始值 $\hat{q}$ ，对于简单的估计函数，它通常为零，或者在处理神经网络时是随机的。也就是说，低方差通常是一个决定因素，TD 学习在同一问题上需要的训练数据比 Monte Carlo 少。

其它你可能感兴趣的问题

上一篇、四分位数和均值构建（正态？）分布？nn 下一篇为什么描述性统计与回归系数相矛盾？