偏差和误差之间的区别?

机器算法验证 机器学习 统计学习
2022-03-13 04:41:05

在统计中,偏差和误差有什么区别?

你可以说,Bias 是一种错误吗?或者偏差是带有某种倾向的错误?

4个回答

我们可以谈论单次测量的误差,但偏差是多次重复测量的误差平均值。偏差是测量技术误差的统计特性。有时使用术语“偏差误差”而不是“均方根误差”。

错误一词出现在整个科学,特别是统计科学的几个相关(但不相同)的上下文中。

错误仍然带有错误的味道(错误的东西),至少在测量错误的背景下,尤其是在科学家考虑他们的数据时但它在统计科学中的主要含义早已只是或多或少不受控制的变化(一些不稳定或错误的东西)。例如,抽样误差是指抽样变化,即负责任地抽取的不同样本将包含不同数据的不受控制和不可控的事实;因此,一般而言,基于这些样本的任何统计数据(例如平均值、相关性、蓝色分数)都会因样本而异。

在简单回归型模型中,误差是指规范中的个别干扰,例如

响应变量预测函数随机误差=+

误差可以更一般地指给定预测变量的响应变量的条件分布。

偏差是指某个数量的真实或正确值与该数量的测量或估计之间的差异。因此,原则上它不能被计算,除非那个真实或正确的值是已知的,尽管这个问题在不同程度上存在。

  • 在最简单的问题中,真实值是已知的(当目标的中心可见并且可以测量射击与中心的距离;这是一个常见的类比),然后通常将偏差计算为差异在测量或估计的真实值和平均值(或偶尔的一些其他总结)之间。

  • 在其他问题中,一些谨慎的方法被认为是最先进的,因此可以产生最好的测量结果,因此其他方法被认为或多或少有偏差,这取决于它们与最佳方法的系统偏离程度(在某些领域称为黄金标准)。

  • 在其他问题中,我们有一种或多种方法在某种程度上都存在缺陷,因此对偏见的评估是困难的或不可能的。然后根据方法之间的一致性来改变问题和判断真理是很诱人的,甚至可能是自然的。

这两个术语可以与系统测量误差具有非零均值(因此它们的总结量化偏差)和随机误差具有零均值的想法相一致。(等效地,这就是我们将错误标记为系统性或随机性的方式。)

在数理统计中,标准分析分析特定估计量是否在一般情况下或在特定情况下在小样本、渐近等方面存在偏差。

该草图有时暗示误差是附加定义的,因此

测量值真值误差=+

但这只是最简单的情况。这里不排除误差可能是乘法而不是加法的想法,或者在更复杂的尺度上定义(例如,在测量比例或百分比时,在 logit 尺度上可能会更好地考虑误差)。

这里对错误不稳定的评论受到 Jeffreys, Harold 的讨论的启发。1939/1948/1961。概率论。伦敦:牛津大学出版社。

两者的区别不仅在语义上,还可以用一个公式来表达:bias-variance-tradeoff

以下是统计学习元素中偏差-方差分解或关于偏差-方差权衡的维基百科页面:

MSE(θ^)=Var(θ^)+Bias2(θ^,θ).

其中是 \theta 的估计量 \是均方错误,是估计器。θ^θMSE(θ^)=E(θ^θ)2Var(θ^)=E(θ^Eθ^)2θ^Bias2(θ^,θ)=(Eθ^θ)2

形成这个恒等式,我们可以看到在估计器的上下文中,

  • 偏差是一个误差,因为它是均方误差的一个组成部分。
  • 并非每个错误都是偏见(不幸的是)
  • (这与问题无关)可能有偏估计量的 MSE 低于无偏估计量,尽管对于无偏估计量来说这是一个很好的属性。

我在这里介绍的是关于估计器的术语错误和偏差,但我认为这些原则适用于这些词,因为它们通常在统计中使用:

人们可以将错误分解为系统和非系统的组成部分。偏差是系统误差的名称。

简而言之,偏差是您估计的期望值(表示为)与您正在估计的真实值(表示为)的差异。θ^θ

E[θ^]θ

误差是您的估计值与您估计的真实值的差值。

θ^θ

你可以有一个很棒的无偏估计器,但仍然有错误,因为你观察到的估计器值并没有完全正确。