对偏差-方差权衡的直观解释?

机器算法验证 回归 方差 偏见 直觉 偏差-方差-权衡
2022-01-16 04:49:58

我正在寻找对偏差-方差权衡的直观解释,无论是在一般情况下还是在线性回归的背景下。

4个回答

想象一些二维数据——比如说高中学生的身高与体重——绘制在一对轴上。

现在假设你通过它拟合一条直线。这条线当然代表一组预测值,其统计方差为零。但是偏差(可能)很高——即它不能很好地拟合数据。

接下来,假设您使用高次多项式样条对数据进行建模。您对拟合不满意,因此您增加多项式次数,直到拟合得到改善(实际上它会达到任意精度)。现在你有一个偏差趋于零的情况,但方差非常高。

请注意,偏差 - 方差权衡并未描述比例关系 - 即,如果您绘制偏差与方差,您不一定会看到一条通过原点的直线,斜率为 -1。在上面的多项式样条示例中,减少次数几乎肯定会增加方差,而不是减少偏差。

偏差-方差权衡也嵌入在平方和误差函数中。下面,我重写(但没有改变)这个方程的通常形式来强调这一点:

E((yf˙(x))2)=σ2+[f(x)1κi=0nf(xn)]2+σ2κ

在右边,有三个术语:第一个是不可约误差(数据本身的方差);这超出了我们的控制范围,因此请忽略它。第二偏差的平方第三方差很容易看出,随着一个上升另一个下降——它们不能同时在同一个方向上变化。换句话说,您可以将最小二乘回归视为(隐式)从候选模型中找到偏差和方差的最佳组合。

假设您正在考虑购买灾难性健康保险,并且有 1% 的几率生病,这将花费 100 万美元。因此,生病的预期成本是 10,000 美元。保险公司想要盈利,会向你收取 15,000 的保单费用。

购买保单会给您带来 15,000 的预期成本,其方差为 0,但可以被认为是有偏差的,因为它比生病的实际预期成本高出 5,000。

不购买保单的预期成本为 10,000,这是无偏的,因为它等于生病的真实预期成本,但方差非常大。这里的权衡是在一种始终错误但从不严重的方法与一种平均正确但变化更大的方法之间进行权衡。

首先,让我们了解偏差和方差的含义:

了解偏差和方差

想象一下红色牛眼区域的中心是我们试图预测的目标随机变量的真实平均值。每次我们采取一组观察样本并预测该变量的值时,我们都会绘制一个蓝点。我们正确预测了蓝点是否落在红色区域内。偏差是对预测的蓝点与红色区域中心的距离(真实平均值)的度量。直觉上,偏差是对误差的量化。方差是我们的预测有多分散。

左上角是理想条件但在实践中很难实现,右下角是最坏情况,在实践中很容易实现(通常是随机初始化模型的起始条件)。我们的目标是从右下角(高偏差高方差)的情况转到左上角的情况(低方差低偏差)。

但这里的问题是:不幸的是,同时实现最低方差和最低偏差是困难的。(为什么会这样?这是一个更深层次的问题)。当我们试图减少其中一个参数(偏差或方差)时,另一个参数会增加。

现在这里的权衡是:

从长远来看,介于两者之间的某个最佳位置会产生最小的预测误差。

偏差和方差之间的权衡

这些图片取自http://scott.fortmann-roe.com/docs/BiasVariance.html查看使用线性回归和 K-最近邻的解释以获取更多详细信息

我强烈推荐看看Yaser Abu-Mostafa 的 Caltech ML 课程,第 8 讲(偏差-方差权衡)以下是大纲:

假设您正在尝试学习正弦函数:

替代文字

我们的训练集仅包含 2 个数据点。

让我们尝试使用两个模型来实现,h0(x)=bh1(x)=ax+b

对于,当我们尝试使用许多不同的训练集(即我们重复选择 2 个数据点并对其进行学习)时,我们得到(左图表示所有学习模型,右图表示它们的均值 g 和它们的方差(灰色区域)):h0(x)=b

在此处输入图像描述

对于,当我们尝试使用许多不同的训练集时,我们得到:h1(x)=ax+b

在此处输入图像描述

如果我们将学习模型与进行比较,我们可以看到产生的模型比h0h1h0h1,因此当我们考虑所有学习的模型时,方差较小h0,但最好的模型 g(图中红色)是用h1优于用 g 学习的最佳模型h0,因此具有较低的偏差h1

在此处输入图像描述


如果您查看成本函数相对于训练集大小的演变(来自Coursera - Andrew Ng 的机器学习的数据):

高偏差:

在此处输入图像描述

高方差:

在此处输入图像描述