我将为您简要介绍统计中使用的术语,我认为这是明智的术语。情况(1)和(2)确实指的是通常统计意义上的偏差,(4)指的是密切相关的东西,(3)只是对已经具有完全合理名称的对象进行误导性重命名。只是为了快速处理(3),我注意到术语β0在回归中被称为“截距”项,而不是“偏差”。除非有充分的上下文理由将其称为“偏见术语”,否则该语言具有高度误导性。(您为这种用法提供的链接只是一个 CV.SE 问题,由于缺乏清晰性而被关闭,因此并不是广泛使用的真正证据。我从未在回归中看到这个术语,称为偏差术语。)
估计器偏差和“偏差-方差权衡”:当我们“拟合”一个统计模型时,我们基本上只是在估计该模型中的未知参数。正如您在案例 (2) 中所指出的,估计器的偏差被定义为估计器的期望值与其估计的参数值之间的差异:
Bias(θ^,θ)=E(θ^)−θ.
在查看估计器的性能时,我们通常通过均方误差来衡量这一点,这是估计器与其估计值的平方偏差的期望值:
MSE(θ^,θ)=E((θ^−θ)2).
均方误差的性质之一是它可以分解为:
MSE(θ^,θ)=V(θ^)+Bias(θ^,θ)2.
如果我们检查一个模型的可观察值y=f(x,θ)+ε由回归项和误差项组成,我们同样有:
E((y−f(x,θ^))2)=V(f(x,θ^))+Bias(f(x,θ^),f(x,θ))2+σ2ε.
现在,如果我们检查具有某些固定均方误差的估计器类别,我们可以看到这些估计器的偏差和方差之间必须进行权衡——较低的偏差对应于较高的方差,反之亦然。通常,当我们有估计参数的竞争方法(即“拟合”模型的替代方法)时,我们关注那些具有最佳均方误差的方法,并且在这个类中,我们看到在具有更高偏差的方法之间进行选择但较低的方差,以及具有较低(或没有)偏差但具有较高方差的方法。
正如您在案例 (1) 中指出的那样,在讨论机器学习时,通常会在选择模型拟合方法和使用训练数据时提到一般的“偏差方差权衡”。虽然这种讨论通常非常广泛和深奥,但最终它源于此处显示的统计分解。因此,它指的是标准统计意义上的“偏差”。因此,案例 (1) 和 (2) 都在其通常的统计定义中提到了偏差。
信息抽样(所谓的“有偏差”数据):在讨论抽样时,您有时可能会在数据或抽样方法中提到“偏差”。统计学家通常不使用这种语言(除了有时作为简写形式),因为他们认识到偏差是估计量的属性,因此它只发生在抽样方法和推理方法的组合中。当数据以非标准方式提供信息时,我们说它是一种“信息丰富的”抽样方法,我们试图在推论中考虑到这一点。如果推理方法没有正确考虑这些信息,那么这给了我们一个有偏估计,那是有偏见的。
这方面的统计是相当微妙的,所以我将通过一个例子来描述它。假设您有一个有十个孩子的小社区,并且您想知道每个家庭的平均孩子数(仅适用于至少有一个孩子的家庭)。假设这十个孩子中,九个来自同一个家庭(所有兄弟姐妹),一个是独生子女(没有兄弟姐妹),这意味着真正的平均数是五个。假设您对所有孩子进行抽样并询问他们每个人有多少兄弟姐妹,然后使用这些数据来估计每个家庭的平均孩子数。一个幼稚的估计器是取每个孩子的平均兄弟姐妹数量,然后加上一个来估计每个家庭的平均孩子数量。如果你使用这种推理方法,你会得到一个严重的高估:
θ^=110(9⋅9+1⋅0)+1=8.1+1=9.1.
这里的问题是我们抽样的是孩子而不是家庭,所以我们更有可能从一个更大的家庭中选择一个孩子;所有儿童的平均数按比例分配给规模较大的家庭更多的权重。这是“信息丰富的”抽样方法的一个例子,其中天真的估计器在估计感兴趣的真实数量时会导致很大的偏差。(这种抽样的技术名称是概率与大小(PPS)抽样成正比。)请注意,这是使用特定类型的(错误)估计量导致偏差。如果我们考虑到我们正在使用 PPS 抽样这一事实,并在我们的估计器中考虑到这一点,我们就可以摆脱这种偏差。
正如你从这个例子中看到的,说数据本身是有偏差的并不完全正确——抽样方法是不寻常的,如果我们把它当作给我们提供直接信息的方式来对待,它就会导致我们产生很大的偏差。感兴趣的数量,但偏差是由于我们未能解释估计器中抽样机制的性质而产生的。在统计讨论中,我们使用术语“信息抽样”来描述这种抽样机制,但“偏差”仍然是估计量的属性。因此,我们是否有偏差是由抽样方法和估计量的组合决定的。