在评估共线性 - 相关性或 VIF 时,您会选择什么?
假设您运行 pairplots 并计算解释变量对之间的 Pearson 相关系数。其中两个的相关系数在 0.8 左右,相当高。这表明在同一个回归模型中包含两个变量可能不是一个好主意。但是说你无论如何都要包括它们。然后从包中运行vif命令。car方差膨胀因子 (VIF) 均低于阈值(例如 3)。这表明没有问题的共线性。
你会说:
1) 如果 VIF 较低,无论高相关性如何,两者都可以包含在模型中?
或者
2) 高相关性意味着一个变量应该在开始时立即删除,而不管 VIF 是什么?
(这与任何特定的数据或模型无关,因此没有提供具体的数据示例,但我过去曾经历过。我知道有与这个问题相关的线程,但我没有找到我的具体的实际答案问题。)