我们什么时候可以谈论共线性

机器算法验证 相关性 线性模型 多重共线性
2022-01-26 07:03:08

在线性模型中,我们需要检查解释变量之间是否存在关系。如果它们相关性太大,则存在共线性(即变量部分地相互解释)。我目前只是在查看每个解释变量之间的成对相关性。

问题 1: 什么归类为相关性过多?例如,皮尔逊相关系数为 0.5 是否过多?

问题2: 我们能否根据相关系数完全确定两个变量之间是否存在共线性,还是取决于其他因素?

问题 3: 对两个变量的散点图的图形检查是否会增加相关系数所指示的内容?

3个回答
  1. 在没有太多共线性和太多共线性之间没有“明确的界限”(除了在微不足道的意义上r=1.0绝对是太多了)。分析师通常不会想到r=.50因为两个变量之间的共线性太大。关于多重共线性的经验法则是,当 VIF 大于 10 时,您拥有的太多了(这可能是因为我们有 10 根手指,所以请按照这些经验法则来衡量它们的价值)。这意味着如果两个变量之间存在过多的共线性,如果r.95. 您可以在我的回答中阅读有关 VIF 和多重共线性的更多信息:在多元回归模型中具有相关预测变量的效果是什么?

  2. 这取决于您所说的“完全确定”是什么意思。如果两个变量之间的相关性是r.95,那么大多数数据分析师会说你有问题的共线性。但是,您可以有多个变量,其中没有两个变量具有如此高的成对相关性,并且仍然存在隐藏在整组变量中的有问题的共线性。这是其他指标(例如 VIF 和条件编号)派上用场的地方。您可以在我的问题上阅读有关此主题的更多信息:是否有理由更喜欢特定的多重共线性度量?

  3. 查看您的数据总是很聪明,而不仅仅是数字摘要/测试结果。这里的规范参考是Anscomb 的四重奏

我对这三个问题的看法是

问题 1 什么归类为相关性过大?例如:皮尔逊相关系数为 0.5 是不是太多了?

许多作者认为(多重)共线性不是问题。在此处此处查看有关该主题的相当尖锐的意见。最重要的是,除了具有较低(有效)的样本量之外,多重共线性对假设检验没有影响。例如,如果您进行回归,您将很难解释回归系数,但如果您选择这样做,则不会违反任何基本假设。

问题2 我们能否根据相关系数完全判断两个变量之间是否存在共线性,还是取决于其他因素?

我认为有几种方法可以测量两个变量之间的相关性,从计算 Pearson 的相关系数(如果你假设线性,显然你这样做了),到Spearman 的排名距离相关性,甚至在你的数据集上进行PCA但我会把这个问题的答案留给比我更了解情况的人。

问题 3 对两个变量的散点图的图形检查是否会增加相关系数所指示的内容?

IMO,答案是否定的。

评估共线性的常用方法是使用方差膨胀因子 (VIF)。这可以在 R 中使用“car”包中的“vif”函数来实现。与仅查看两个变量之间的相关性相比,这具有一个优势,因为它同时评估了一个变量与模型中其余变量之间的相关性。然后,它会为模型中的每个预测变量提供一个分数。

如上所述,没有硬性和快速的截止值,但是一旦 VIF 分数在 5-10 之间,通常会被认为是有问题的。为此,我使用特定领域的经验法则。此外,使用相关预测变量不一定是无效的(只要它们不是完全相关的)。您只需要更多数据来区分效果。当您没有足够的数据时,相关预测变量的参数估计值将存在很大的不确定性,并且这些估计值对重新采样很敏感。

具体回答您的问题:

  1. 不要使用相关系数。使用具有所有预测变量且没有交互作用的模型的 VIF。5-10 的 VIF 表示相关性过高,您的具体截止值取决于您需要对模型执行的操作。

  2. 它取决于模型中的其他预测变量,这就是使用 VIF 有益的原因。

  3. 没有!统计数据将更好地量化您使用散点图观察到的内容。除非在将您的预测变量相互回归时,严重违反 OLS 的假设。