向线性回归添加特征会增加模型偏差吗?

机器算法验证 回归 偏差-方差-权衡
2022-04-10 14:11:53

我认为可以通过添加不良特征来增加线性回归模型中的偏差,但我想不出一个基于偏差-方差分解直观地有意义的例子。例如,在这里使用偏差方差分解的公式,平方偏差项是我想不出在添加额外功能时该术语会增加的情况,因为我认为添加一个不好的功能会强制其相关参数对于都为零。(g¯(x)f(x))2g¯f

已编辑

1个回答

我为此写了一篇论文。它的早期版本在 arxiv 上:https ://arxiv.org/abs/2003.08449 (编辑:完整发布的版本现在可以在此处开放访问:https ://journals.sagepub.com/doi/full/10.1177 /0962280221995963)。

在某些情况下,它的短处是肯定的。也就是说,模型中必须已经存在一些偏差。如果您的模型已经存在偏差,则可以通过添加变量来增加偏差。

例如,假设我们对某种处理对结果的影响感兴趣。为简单起见,假设这种效应只是回归系数偏差将与此参数有关。增加 \beta 估计偏差的最简单方法添加变量来解释治疗中的大部分变化()和结果中的极小变化(),除了通过当然。AYβββ^AYA

发生这种情况的原因是由于最小二乘的几何形状。根据 FWL 定理,我们总是可以将多元回归的估计视为等同于以下简单回归的估计:

  1. 对所有控制变量的回归结果的残差和Y

  2. 对所有控制变量的回归的处理残差A

假设我们有一个仅通过产生影响的变量(工具变量)并且没有交互作用。当我们将此变量添加到回归中时,旧估计相对于事实的任何方向都会被放大(请参见上述论文中的图 4 中的图表)。YA

一般来说,一个变量可能会导致偏差放大,即使它确实解释了结果的某些方差,而不是通过处理。在这些情况下,包含一个变量是一种权衡。通过包含它,您消除了排除所述变量的偏差,但您也放大了剩余偏差的偏差。到底有没有偏置放大,要看哪个效果更强。在极端情况下,尤其是那些已经有大量控制变量的情况下,放大效应往往会占主导地位,因为放大效应是双曲线的并且总是在同一个方向上。另一方面,消除遗漏变量偏差的效果在这些设置中是线性的,并且可能朝任一方向发展。

有一小部分文献研究了这些影响。最初研究纯仪器的两个是

i) Pearl (2011) https://ftp.cs.ucla.edu/pub/stat_ser/r386.pdf
ii) Wooldridge (2006) http://econ.msu.edu/faculty/wooldridge/docs/treat1r6.pdf

但此后已扩展到更广泛的模型类别和更灵活的条件。

关于偏差方差权衡的观点。在大多数情况下,不幸的是,当您有偏差放大时,方差也会增加。