机器学习中的偏差和方差是什么?

数据挖掘 机器学习 数据集 方差 偏见
2021-09-29 17:38:35

我在学习机器学习,遇到过偏差方差的概念。我是一名大学生,在教授的幻灯片中,偏见被定义为:

b一世一个s=[errrs(H)]-errrd(H)

在哪里H是假设和errrs(H)样本误差errrd(H)真正的错误特别是,当训练集和测试集不独立时,它表示我们有偏见。

读完这篇文章后,我试图更深入地了解这个概念,所以我在网上搜索并找到了这个视频,它将偏见定义为机器学习妈妈无法捕捉到真正的关系

我不明白,这两个定义是相等的还是两种类型的偏见不同?

与此一起,我也在研究方差的概念,在我教授的幻灯片中,据说如果我从样本中考虑两个不同的样本,即使模型是无偏的,误差也可能会有所不同,但在视频中我发布了它表示方差是训练集和测试集之间的拟合差异

同样在这种情况下,定义不同,为什么?

3个回答

什么是偏差和方差?

让我们从一些基本定义开始:

  • 偏差:它是平均预测值和真实值之间的差异。
  • 方差:这是我们预测的可变性,即您的模型预测的分散程度。

他们可以从这张图片中理解:

在此处输入图像描述

来源

如何处理偏差和方差?

如果你的模型存在偏差问题,你应该增加它的能力。例如,如果您的神经网络的预测不够好,请添加更多参数,添加新层使其更深,等等。

如果您的模型遇到方差问题,那么最好的解决方案来自集成。机器学习模型的集成可以显着减少预测的方差。

偏差-方差权衡

如果您的模型欠拟合,则说明存在偏差问题,您应该使其更强大。一旦你让它变得更强大,它可能会开始过度拟合,这是一种与高方差相关的现象。出于这个原因,您必须始终在消除机器学习模型的偏差和方差之间找到正确的权衡。

在此处输入图像描述

来源

学习如何做到这一点更像是一门艺术而不是一门科学!

我在下面附上一个计算的屏幕截图,以解释Wikipedia中的方差定义。

从 5 个不同的训练数据集创建 5 个模型(类似于但不完全是 5 折交叉验证)。那就是从不同的训练数据集中准备 5 个模型。为每个模型提供相同的测试数据。我们的测试数据有两个观察结果。以下是预测和方差计算的结果。方差范围为 26.8

在此处输入图像描述

这张图片说明了一切:在 ML 中,您有一个偏差/方差困境:您想要创建一个足够精确的模型来从您的数据中学习东西,但不是完全精确,因此它学习的是趋势而不是精确的训练集的值。

方差和偏差要一起考虑:在同一个模型上,当您调整以降低方差时,您将自动增加偏差。

然后,您的工作是获得良好的折衷,如图所示:方差足够高(即偏差足够低)以做出良好的预测并从您的训练中学习一些东西,但方差不能太高(即偏差不能太低) ) 以避免过度拟合。

在此处输入图像描述