机器算法验证 - 我们什么时候可以谈论共线性 - 吾爱随笔录

我们什么时候可以谈论共线性

机器算法验证相关性线性模型多重共线性

2022-01-26 07:03:08

在线性模型中，我们需要检查解释变量之间是否存在关系。如果它们相关性太大，则存在共线性（即变量部分地相互解释）。我目前只是在查看每个解释变量之间的成对相关性。

问题 1： 什么归类为相关性过多？例如，皮尔逊相关系数为 0.5 是否过多？

问题2： 我们能否根据相关系数完全确定两个变量之间是否存在共线性，还是取决于其他因素？

问题 3： 对两个变量的散点图的图形检查是否会增加相关系数所指示的内容？

3个回答

在没有太多共线性和太多共线性之间没有“明确的界限”（除了在微不足道的意义上 $r = 1.0$ 绝对是太多了）。分析师通常不会想到 $r = .50$ 因为两个变量之间的共线性太大。关于多重共线性的经验法则是，当 VIF 大于 10 时，您拥有的太多了（这可能是因为我们有 10 根手指，所以请按照这些经验法则来衡量它们的价值）。这意味着如果两个变量之间存在过多的共线性，如果 $r \ge .95$ . 您可以在我的回答中阅读有关 VIF 和多重共线性的更多信息：在多元回归模型中具有相关预测变量的效果是什么？
这取决于您所说的“完全确定”是什么意思。如果两个变量之间的相关性是 $r \ge .95$ ，那么大多数数据分析师会说你有问题的共线性。但是，您可以有多个变量，其中没有两个变量具有如此高的成对相关性，并且仍然存在隐藏在整组变量中的有问题的共线性。这是其他指标（例如 VIF 和条件编号）派上用场的地方。您可以在我的问题上阅读有关此主题的更多信息：是否有理由更喜欢特定的多重共线性度量？
查看您的数据总是很聪明，而不仅仅是数字摘要/测试结果。这里的规范参考是Anscomb 的四重奏。

我对这三个问题的看法是

问题 1 什么归类为相关性过大？例如：皮尔逊相关系数为 0.5 是不是太多了？

许多作者认为（多重）共线性不是问题。在此处和此处查看有关该主题的相当尖锐的意见。最重要的是，除了具有较低（有效）的样本量之外，多重共线性对假设检验没有影响。例如，如果您进行回归，您将很难解释回归系数，但如果您选择这样做，则不会违反任何基本假设。

问题2 我们能否根据相关系数完全判断两个变量之间是否存在共线性，还是取决于其他因素？

我认为有几种方法可以测量两个变量之间的相关性，从计算 Pearson 的相关系数（如果你假设线性，显然你这样做了），到Spearman 的排名、距离相关性，甚至在你的数据集上进行PCA。但我会把这个问题的答案留给比我更了解情况的人。

问题 3 对两个变量的散点图的图形检查是否会增加相关系数所指示的内容？

IMO，答案是否定的。

评估共线性的常用方法是使用方差膨胀因子 (VIF)。这可以在 R 中使用“car”包中的“vif”函数来实现。与仅查看两个变量之间的相关性相比，这具有一个优势，因为它同时评估了一个变量与模型中其余变量之间的相关性。然后，它会为模型中的每个预测变量提供一个分数。

如上所述，没有硬性和快速的截止值，但是一旦 VIF 分数在 5-10 之间，通常会被认为是有问题的。为此，我使用特定领域的经验法则。此外，使用相关预测变量不一定是无效的（只要它们不是完全相关的）。您只需要更多数据来区分效果。当您没有足够的数据时，相关预测变量的参数估计值将存在很大的不确定性，并且这些估计值对重新采样很敏感。

具体回答您的问题：

不要使用相关系数。使用具有所有预测变量且没有交互作用的模型的 VIF。5-10 的 VIF 表示相关性过高，您的具体截止值取决于您需要对模型执行的操作。
它取决于模型中的其他预测变量，这就是使用 VIF 有益的原因。
没有！统计数据将更好地量化您使用散点图观察到的内容。除非在将您的预测变量相互回归时，严重违反 OLS 的假设。

其它你可能感兴趣的问题

上一篇关于费舍尔的精确检验：如果这位女士不知道先喝牛奶的杯数，什么样的检验才是合适的？下一篇哪些诊断可以验证特定 GLM 系列的使用？