偏差、方差和残差之间的关系/差异是什么?

数据挖掘 机器学习 预测建模 统计数据
2022-02-17 05:39:16

很长一段时间以来,我一直在努力寻找这个问题的答案。

偏差、方差和残差之间的关系/差异是什么?

我想我确实将偏差、方差和残差理解为独立的概念。如果我错了,请纠正我 -

偏差是模型不同运行的平均预期结果与数据真实值之间的差异。

方差是模型不同运行之间给定数据点的预期结果(预测)的可变性。

残差是模型的预期结果与数据的真实值之间的差异。
y - y^
Residual 似乎有点类似于 Bias。但这是我的误解吗?

请用简单的语言和简单的方程式向我解释这三者之间的关系或差异。

2个回答

我认为您的困惑源于在这里将两种不同的术语混合在一起。偏差和方差是可以以多种不同方式测量和量化的一般概念。残差是对预测值和真实值之间差异的特定度量。

粗略地说,偏差是平均预测与实际平均值的距离。衡量它的一种方法是手段的差异。您还可以使用中位数差、范围差或其他几种计算。要全面了解模型的偏差,您需要查看几种不同的度量。

方差在数据科学中非正式使用时,是单个集合的属性(无论是预测值还是真实值)。粗略地说,模型的方差是随机选择的预测与平均预测的距离。它经常使用交叉验证进行评估。您使用略有不同的训练集但使用相同的算法和调整参数来构建多个模型。然后,您计算每个模型的评估指标,并计算所有模型的此评估的标准偏差。当暴露于不同的训练和测试集时,这让您了解给定算法/参数集的“稳定性”。

(注意这可能会令人困惑,因为统计中使用了“方差”的特定定义,v=σ2. 在数据科学中,它通常被更非正式地使用。)

残差是与单个预测/真实值集对相关联的特定数量。你在那里有正确的定义。这使它不是一个一般概念,而是一种可用于评估偏差或方差的度量。它们还经常用于拟合回归模型和执行梯度下降式优化。残差集的均值或中位数可以作为评估偏差的一种方式,而残差集的标准差可用于评估方差。