线性回归中是否存在偏差方差权衡的图形表示?

机器算法验证 回归 方差 偏见
2022-01-29 07:34:09

我正遭受停电之苦。我看到了以下图片,以展示线性回归背景下的偏差-方差权衡:

数据的多项式模型,简单和复杂的情况

我可以看到这两个模型都不是很好的拟合——“简单”没有欣赏 XY 关系的复杂性,“复杂”只是过拟合,基本上是背诵训练数据。但是,我完全看不到这两张照片中的偏差和差异。有人可以给我看这个吗?

PS:对偏差-方差权衡的直观解释的答案?并没有真正帮助我,如果有人可以根据上图提供不同的方法,我会很高兴。

2个回答

偏差方差权衡基于均方误差的分解:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

查看偏差-方差交易的一种方法是模型拟合中使用了数据集的哪些属性。对于简单模型,如果我们假设使用 OLS 回归来拟合直线,那么只有 4 个数字用于拟合直线:

  1. x 和 y 之间的样本协方差
  2. x 的样本方差
  3. x 的样本均值
  4. y 的样本均值

因此,任何导致上述相同 4 个数字的图形都将导致完全相同的拟合线(10 点、100 点、100000000 点)。所以从某种意义上说,它对观察到的特定样本不敏感。这意味着它将是“有偏见的”,因为它实际上忽略了部分数据。如果被忽略的部分数据碰巧很重要,那么预测将始终是错误的。如果您将使用所有数据的拟合线与从删除一个数据点获得的拟合线进行比较,您将看到这一点。它们将趋于相当稳定。

现在,第二个模型使用它可以获得的每一个数据片段,并尽可能地拟合数据。因此,每个数据点的确切位置都很重要,因此您不能像 OLS 那样在不更改拟合模型的情况下移动训练数据。因此,该模型对您拥有的特定训练集非常敏感。如果您执行相同的 drop-one 数据点图,拟合模型将非常不同。

总结一下我认为我所知道的非数学方式:

  • 偏差 - 当您使用简单模型时,您的预测将不正确,并且在您使用该模型的任何数据集上都会发生这种情况。预计您的预测是错误的
  • 方差 - 如果您使用复杂模型,您将根据您使用的任何数据集获得非常不同的预测

这个页面有一个很好的解释,图表与您发布的类似。(虽然我跳过了顶部,只是阅读带有图表的部分) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (鼠标悬停会显示不同的示例,以防您没有注意到!)