当相关性变得太高时?

机器算法验证 回归 相关性 模型选择
2022-03-11 17:38:12

可以在网上找到很多关于解释相关系数的信息。但我发现通常很难决定何时从线性模型中删除一个变量,因为它与另一个变量相关。

  1. 在定义相关系数的阈值时我应该考虑什么?
  2. 我通常应该使用什么系数(0.4?)将两个变量定义为“太”相关?
  3. 在变量的相关性分析中,我应该遵循哪些实用建议?
1个回答

一些相关性不是问题。实际上,这正是我们添加控制变量的原因。考虑当所有解释变量彼此相关时会发生什么。在这种情况下,将它们全部添加到一个模型中不会有任何附加值:您只需查看一系列二元回归并获得相同的结果。因此,将控制变量添加到模型中的想法只有在变量相互关联时才有意义。

极高相关性可能会导致计算机处理数字的方式出现问题。然而,用于计算线性回归的算法已经改进了很多,这在大多数情况下都不是问题。0.4 的相关性与该标记相差无几(想想 0.99 或 0.999)。

中等相关性意味着您的模型可以用来解开两个相关解释变量的影响的信息少于您仅基于样本量所预期的信息。因此,标准误差会很高,置信区间会很宽。这是对您可用信息量的不幸但准确的表示。因此,如果您不自己收集数据,则您无能为力,也无能为力。

但是,如果您的变量是适度相关的,您可能需要考虑它们实际上测量的是同一事物的可能性。在这种情况下,您要么想用它来更好地估计那一件事(例如 SEM 中的测量模型),要么只选择其中一个变量。想象一下,当您将两者相加时,您将如何解释您的结果:一个单位在一个概念的测量值中发生变化,同时保持同一概念的另一个测量值不变......