省略变量偏差与多重共线性

机器算法验证 回归 线性模型 多重共线性 偏见 遗漏变量偏差
2022-04-08 21:32:07

这似乎有点像第 22 条:假设我正在做线性回归,并且我有 2 个高度相关的变量。如果我在我的模型中同时使用两者,我将遭受多重共线性,但如果我不同时使用两者,我会遭受遗漏变量偏差的困扰吗?

2个回答

通常,您不会同时关心它们。根据您的分析目标(例如,描述、预测和因果推理),您最多会关心其中一个。

描述
多重共线性(MC)只是一个需要提及的事实,只是要报告的数据的特征之一。
遗漏变量偏差 (OVB) 的概念不适用于描述性建模。(参见下面提供的 Wikipedia 引用中 OVB 的定义。)与因果建模相反,变量相关性的因果概念不适用于描述。您可以自由选择您有兴趣以概率方式描述的变量(例如,以回归的形式),并根据所选变量集评估您的模型,而不是未选择的变量。

预测MC 和 OVB 在很大程度上无关紧要,因为您对模型系数本身
不感兴趣,只对预测感兴趣。

因果建模/因果推理
在尝试进行因果推理时,您可能会同时关心 MC 和 OVB。我会争辩说,您实际上应该担心 OVB 而不是 MC。OVB 是由错误的模型造成的,而不是由潜在现象的特征造成的。您可以通过更改模型来解决它。同时,不完美的 MC 很可能出现在一个明确指定的模型中,作为潜在现象的特征。鉴于指定的模型和您拥有的数据,MC 没有声音逃脱。从这个意义上说,您应该承认它以及在您的参数估计和推断中产生的不确定性。

我不是 100% 确定描述/描述性建模的定义。在这个答案中,我采用描述来构成数据的概率建模,例如联合分布、条件分布和边际分布及其特定特征。与因果建模相反描述侧重于变量之间的概率而非因果关系。


编辑以回应@LSC 的反馈:

为了捍卫我的说法,即 OVB 在很大程度上与预测无关,让我们首先看看 OVB 是什么。根据维基百科

在统计学中,当统计模型遗漏一个或多个相关变量时,就会出现遗漏变量偏差 (OVB)。偏差导致模型将缺失变量的影响归因于包含变量的估计影响。更具体地说,OVB 是回归分析中参数估计中出现的偏差,当假设的规范不正确时,它忽略了一个独立变量,该变量是因变量的决定因素,并且与一个或多个包含的独立变量相关变量。

在预测中,我们不关心估计的效果,而是关心准确的预测。因此,我上面的陈述应该是显而易见的。

关于声明,OVB 必然会在估计过程中引入偏差,并可能与@LSC 的预测发生冲突。

  • 这与我的观点相切,因为我没有讨论省略变量对预测的影响。我只讨论了遗漏变量偏差与预测的相关性。两者不一样。
  • 我同意省略变量确实会影响不完美 MC 下的预测。虽然这不会被称为 OVB(有关 OVB 的典型含义,请参阅上面的 Wikipedia 引用),但这是一个真正的问题。问题是,在 MC 下这有多重要?我会争论,不是那么多。
  • 在 MC 下,所有回归器的信息集与没有一个回归器的简化集是接近的。因此,省略回归量对预测准确性的损失很小,并且损失随着 MC 的程度而缩小。这应该不足为奇。我们经常在预测模型中省略回归变量,以利用偏差-方差权衡。
  • 此外,线性预测对减少的信息集是无偏的,正如我上面提到的,该信息集接近 MC 下的完整信息集。系数估计量也是预测一致的;有关相关点,请参阅“T 一致性与 P 一致性”

如果您的目标是推理,那么多重共线性是有问题的。考虑多元线性回归,其中 beta 参数帮助我们估计 X1 增加一个单位时 Y 的增加或减少,所有其他变量保持不变。多重共线性会增加 beta 参数的标准误差,从而降低此类推论的可靠性。具体来说,模型系数的方差变得非常大,因此数据的微小变化可能会导致模型参数的不稳定变化。

如果回归模型的目的是研究关联,则预测变量之间的多重共线性可能会混淆共线预测变量对结果变量的关键独立影响的计算和识别,因为它们共享的信息重叠。

来源

然而,多重共线性并不妨碍模型范围内的良好、可靠的预测。

一般来说,当目标是预测时,多重共线性是可以接受的,但如果存在多重共线性,则应该披露它,它会影响模型估计的不确定性。

请注意,完美的多重共线性实际上会导致可能存在无限数量的拟合回归模型的情况。VIF(方差膨胀因子)是我们在推理中可以容忍多少多重共线性的经验法则。

在具有完美多重共线性的模型中,您的回归系数是不确定的,并且它们的标准误差是无限的

来源)。