统计/机器学习中“偏差”一词的不同用法

机器算法验证 术语 偏见 无偏估计器 截距 偏差-方差-权衡
2022-03-26 04:29:49

我想我已经在 stats/ML 中看到了大约 4 种“偏见”一词的不同用法,所有这些用法似乎都不相关。我只是想澄清一下这些用法确实不相关。

这是我见过的4个:

(1)“偏差”-方差权衡:这里,偏差用于表征由于模型的简化假设而导致的模型误差,例如,当线性回归不够复杂而无法捕捉数据趋势时,使用线性回归。

(2) 估计者的“偏差”:估计者的期望值与其真实值之间的差异。

(3) 偏移项中的“偏差”:例如,在简单线性回归中y=β^1x+β^0,我有时会看到偏移项,β^0,称为“偏差”项。例如,在回归中偏差项的作用

(4)“有偏见的”数据:我认为这可能类似于(1),但这里指的是数据而不是模型。我通常在实验研究中看到这一点,其中实验是在捕捉趋势的有限部分的环境中进行的。例如,您可能会有一些正弦响应,e.g.,y=sin(x), 实验只针对x[0,π/2],这是一个单调递增的周期。

我认为这是我见过的 4 种用法,但如果还有其他用法,请分享。这四个设置中“偏见”的使用是不相关的,对吗?看到同一术语在同一领域的不同设置中多次出现,这有点令人困惑。

4个回答

我将为您简要介绍统计中使用的术语,我认为这是明智的术语。情况(1)和(2)确实指的是通常统计意义上的偏差,(4)指的是密切相关的东西,(3)只是对已经具有完全合理名称的对象进行误导性重命名。只是为了快速处理(3),我注意到术语β0在回归中被称为“截距”项,而不是“偏差”。除非有充分的上下文理由将其称为“偏见术语”,否则该语言具有高度误导性。(您为这种用法提供的链接只是一个 CV.SE 问题,由于缺乏清晰性而被关闭,因此并不是广泛使用的真正证据。我从未在回归中看到这个术语,称为偏差术语。)


估计器偏差和“偏差-方差权衡”:当我们“拟合”一个统计模型时,我们基本上只是在估计该模型中的未知参数。正如您在案例 (2) 中所指出的,估计器的偏差被定义为估计器的期望值与其估计的参数值之间的差异:

Bias(θ^,θ)=E(θ^)θ. 

在查看估计器的性能时,我们通常通过均方误差来衡量这一点,这是估计器与其估计值的平方偏差的期望值:

MSE(θ^,θ)=E((θ^θ)2).

均方误差的性质之一是它可以分解为:

  MSE(θ^,θ)=V(θ^)+Bias(θ^,θ)2.

如果我们检查一个模型的可观察值y=f(x,θ)+ε由回归项和误差项组成,我们同样有:

E((yf(x,θ^))2)=V(f(x,θ^))+Bias(f(x,θ^),f(x,θ))2+σε2.

现在,如果我们检查具有某些固定均方误差的估计器类别,我们可以看到这些估计器的偏差和方差之间必须进行权衡——较低的偏差对应于较高的方差,反之亦然通常,当我们有估计参数的竞争方法(即“拟合”模型的替代方法)时,我们关注那些具有最佳均方误差的方法,并且在这个类中,我们看到在具有更高偏差的方法之间进行选择但较低的方差,以及具有较低(或没有)偏差但具有较高方差的方法。

正如您在案例 (1) 中指出的那样,在讨论机器学习时,通常会在选择模型拟合方法和使用训练数据时提到一般的“偏差方差权衡”。虽然这种讨论通常非常广泛和深奥,但最终它源于此处显示的统计分解。因此,它指的是标准统计意义上的“偏差”。因此,案例 (1) 和 (2) 都在其通常的统计定义中提到了偏差。


信息抽样(所谓的“有偏差”数据):在讨论抽样时,您有时可能会在数据或抽样方法中提到“偏差”。统计学家通常不使用这种语言(除了有时作为简写形式),因为他们认识到偏差是估计量的属性,因此它只发生在抽样方法和推理方法的组合中。当数据以非标准方式提供信息时,我们说它是一种“信息丰富的”抽样方法,我们试图在推论中考虑到这一点。如果推理方法没有正确考虑这些信息,那么这给了我们一个有偏估计,那是有偏见的。

这方面的统计是相当微妙的,所以我将通过一个例子来描述它。假设您有一个有十个孩子的小社区,并且您想知道每个家庭的平均孩子数(仅适用于至少有一个孩子的家庭)。假设这十个孩子中,九个来自同一个家庭(所有兄弟姐妹),一个是独生子女(没有兄弟姐妹),这意味着真正的平均数是五个。假设您对所有孩子进行抽样并询问他们每个人有多少兄弟姐妹,然后使用这些数据来估计每个家庭的平均孩子数。一个幼稚的估计器是取每个孩子的平均兄弟姐妹数量,然后加上一个来估计每个家庭的平均孩子数量。如果你使用这种推理方法,你会得到一个严重的高估:

θ^=110(99+10)+1=8.1+1=9.1.

这里的问题是我们抽样的是孩子而不是家庭,所以我们更有可能从一个更大的家庭中选择一个孩子;所有儿童的平均数按比例分配给规模较大的家庭更多的权重。这是“信息丰富的”抽样方法的一个例子,其中天真的估计器在估计感兴趣的真实数量时会导致很大的偏差。(这种抽样的技术名称是概率与大小(PPS)抽样成正比。)请注意,这是使用特定类型的(错误)估计量导致偏差。如果我们考虑到我们正在使用 PPS 抽样这一事实,并在我们的估计器中考虑到这一点,我们就可以摆脱这种偏差。

正如你从这个例子中看到的,说数据本身是有偏差的并不完全正确——抽样方法是不寻常的,如果我们把它当作给我们提供直接信息的方式来对待,它就会导致我们产生很大的偏差。感兴趣的数量,但偏差是由于我们未能解释估计器中抽样机制的性质而产生的。在统计讨论中,我们使用术语“信息抽样”来描述这种抽样机制,但“偏差”仍然是估计量的属性。因此,我们是否有偏差是由抽样方法和估计量的组合决定的。


它们都指的是“非中性”的东西,但除此之外,我不会说它们是相关的。据我了解,(2)是指计算方法,与数据无关。例如 MLE 与方差的无偏估计量,无论您使用N或者(N1)作为分母。(4) 另一方面,是关于抽样过程。

关于(3),根据我的专业经验和对机器学习历史的了解,我认为具有“拦截”含义的“偏差”的用法来自电子学:对我们今天所说的“机器学习”的早期研究,在1950 年代至 60 年代,通常涉及构建专门的硬件,或者后来在计算机中模拟该硬件。电子学中的“偏置”是指有意将工作电压从零偏移,以实现组件(如晶体管真空管)所需的响应特性(通常:线性) 。这可能也是为什么机器学习中的截距经常被表示为b和预测系数(神经网络术语中的“权重”)w.

(2)

什么是偏见?正如您在(2)中正确定义的那样,偏差是估计量与其真实期望值之间的差异。

(4)

这是定义的应用。在这里让事情变得有点明确会有所帮助。我们要估计的是:

E[sin(x) | full_period]

但相反,我们估计使用:

E[sin(x) | quarter_period]

清楚地:

E[sin(x) | full_period] != E[sin(x) | quarter_period]

一般来说。

因此我们的估计是错误的。这是错误的,因为我们错误地在一组不同的条件下进行了采样。但它仍然符合偏见的定义。

(3) 和 (1)

(3) 有趣。我不确定为什么历史上“偏见”一词起源于线性回归。如果我从具有非零截距的线性回归模型中模拟数据,然后从其输出数据构建线性回归模型,显然我的非零“偏差”项就是我们想要的——所以根据我们的定义它没有偏差的偏见。这表明它确实反映了不同的含义。

在这种情况下,似乎通过“偏见”,我们真的试图暗示模型受数据影响的程度。也就是说,我们的截距越大,数据对我们预测的影响就越小。这也将捕捉到这个概念。

研究论文

在回答这个问题(尚未阅读)时,我还发现了这篇研究论文,该论文试图区分机器清算中使用的偏差定义:

https://arxiv.org/pdf/2004.00686.pdf

当重复应用(抽样和/或估计)程序时,它们都意味着与目标的系统(而不是随机)偏差。目标在上述示例中有所不同:

  1. 目标是来自目标人群的样本中的响应值,它不是训练样本的一部分。

  2. 目标是估计数量的真实值。(也适用于第 1 点。实际上)

  3. 目标为零。

  4. 有偏差的数据应该读取有偏差的样本。目标是目标人群中值的(多元)分布。