偏差-方差权衡就像机器学习中的一条定律。你不能两全其美。是什么机器学习中的监督学习无法同时满足两者?
为什么在监督学习中需要在偏差和方差之间进行权衡?为什么我们不能两全其美?
偏差和方差之间的权衡总结了在拟合一个可以很好地预测基础训练数据集的模型(低偏差)和生成一个不会随训练数据集发生太大变化的模型(低方差)之间的“拔河”游戏。
统计学家/数学家不久前意识到的是,任何模型都可以完美地拟合手头的数据集(即零偏差)。看看这张图片,例如来自关于过度拟合的维基百科页面:
该图描绘了两个试图区分蓝色类和红色类的二元分类器。分类器已针对图中显示的所有蓝色和红色观察值进行了训练,以生成它们的边界。请注意,绿线的偏差为零;它完美地将蓝色和红色类分开,而黑线显然在训练集上有一些错误,因此具有更高的偏差。
问题?数据集中的观测值是遵循某些未知概率分布的随机变量的实现。因此,观察到的数据总是会有某种噪音,包含实际上并不代表潜在概率分布的观察结果。这些异常可以在上图中看到,其中有红色和蓝色的观察结果似乎“跨越”了两个类别之间的隐含边界。显然,除了少数情况外,在这个简单的示例中,大多数观察结果都很容易区分。这少数情况可以被视为噪声,它本质上是随机的,因此无法预测。
结果,绿线本质上是拟合随机噪声,根据定义,随机噪声是不可预测且不具代表性的。结果是,如果我们要使用新的训练数据集(来自相同的过程)再次训练两个分类器,“绿色边界模型”将与上面显示的相比产生非常不同的边界,因为它受到了影响通过不代表实际基础数据生成过程的数据。这是过拟合=高方差。与黑线相关的模型,它避免拟合数据的噪声,应该会保持相对稳定,因为它不受实际上不代表总体的数据的影响。
这是什么意思呢?与黑线相关的模型更接近现实(“真相”),因此,如果我们要从两个分类器都没有看到的“现实”中提取新的观察结果,平均而言,预计会产生较低的总体误差尽管有更高的偏见。这就是偏差-方差权衡,实际上只是说明欠拟合和过拟合之间权衡的一种方式。我没有其他图表来说明这一点,但想象一下,如果我直接从左下角到右上角画一条对角线,并将其称为另一个分类器。现在,我的“模型”方差为零;事实上,它完全独立于训练数据集。但是现在,我什至没有适合训练数据集。
将 MSE 分解为偏差、方差和不可约误差封装了权衡。当您希望拟合一个能够很好地概括总体的模型时,仅仅拥有一个具有低偏差的模型是不够的,最小化方差也很重要,如果不是更重要的话。但是,如果我们要考虑方差,我们现在必须牺牲一些能力来很好地预测训练集(通过正则化),以期获得一个更接近真相的模型。
几乎所有 ML 方法都使用正则化来有效地交易偏差(同样,训练数据集上的性能更差),以换取希望更低的方差。一些例子:
- L1/L2/弹性网络为 GLM 中回归系数的无偏最大似然估计量引入了额外的项。这些项的引入使估计器有偏差,但我们的想法是希望以一种有效的方式进行惩罚,以便我们在减少方差方面获得更大的收益,从而降低总体误差。
- 支持向量机(见上图)有一个成本参数来控制边界的平滑度或“摆动”程度,正如您在上图中看到的那样,通过故意遗漏训练数据集中的一些观察值来交易偏差,以获得泛化的模型对整体人口更好。
- 神经网络有 dropout 层,通过简单地从模型中随机删除隐藏单元来有效地引入偏差。这里的目标是有目的地删除从训练数据集中学习的模型部分,以期防止高度特定于训练集而不是一般人群的复杂协同适应。
- 决策树可以通过修剪(成本复杂性,删除不会显着减少样本错误/导致足够大的信息增益的分支)和限制树的深度来控制。两种方法的结果?同样,更高的偏差(删除可能创建的树底部附近的规则以更好地预测非代表性噪声观察,从而导致稀疏的终端节点),但希望降低方差。
偏差和方差只是模型可以给出低于标准结果的两种方式的描述。要么模型还没有学到足够的知识,并且它对问题的理解非常笼统(偏见),要么它已经很好地学习了给它的数据,并且无法将这些知识与新数据联系起来(方差)。通过仔细监控我们的模型在训练、测试和验证集方面的表现,我们能够最大限度地减少偏差和方差。
