ln(x) 和 ln(x)^2 之间的多重共线性

机器算法验证 多重共线性 对数 方差膨胀因子
2022-04-04 03:50:49

我正在运行一个负二项式模型,我的预测变量之一是计数变量。由于这个变量严重偏斜,我决定对它进行对数转换。

然而,这个变量的影响被假设为非线性的。但是,只要我在模型中包含平方项,我就会得到这两个变量的 VIF > 20,而所有其他预测变量在 VIF 介于 1 和 5 之间时保持稳定。

据我目前的理解,这种关系不应该是线性的,因此不应该出现多重共线性。

谁能解释多重共线性的原因并给出可能的解决方案?

2个回答

除了非常小的计数,本质上是的线性函数:log(x)2log(x)

显示图和线性拟合的图

彩色线是最小二乘拟合到的各种计数范围超过 ,它们就非常好(即使左右仍然非常好)。log(x)2log(x)xx10x>4

引入变量的平方有时用于测试拟合优度,但(根据我的经验)作为解释变量很少是一个好的选择。要考虑非线性响应,请考虑以下选项:

  • 研究非线性的性质。选择适当的变量和/或转换来捕获它。

  • 将计数本身保留在模型中。较大的计数仍然存在共线性,因此考虑从创建一对正交变量,以实现数值稳定的拟合。xlog(x)

  • 使用 (和/或 ) 的样条曲线来模拟非线性。xlog(x)

  • 完全忽略这个问题。如果您有足够的数据,较大的 VIF 可能无关紧要。除非您的目的是获得精确的系数估计(您的转换意愿表明并非如此),否则共线性几乎不重要。

共线性的来源是减少居中并计算因为尺度的低端现在有很大的绝对值,所以它的平方变大了,使得之间的关系不如之间的线性关系。该建议来自分析因子:http ://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/f(x)=x2xx2xz=xE(x)z2zz2xx2

注意:在解释效果时,请记住您缩放了协变量。此外,一些研究人员可能会警告不要进行缩放,因为您的模型的结果是依赖于数据的。以下是 Andrew Gelman 对此问题的一些看法:http: //andrewgelman.com/2009/07/11/when_to_standar/