我正在运行一个负二项式模型,我的预测变量之一是计数变量。由于这个变量严重偏斜,我决定对它进行对数转换。
然而,这个变量的影响被假设为非线性的。但是,只要我在模型中包含平方项,我就会得到这两个变量的 VIF > 20,而所有其他预测变量在 VIF 介于 1 和 5 之间时保持稳定。
据我目前的理解,这种关系不应该是线性的,因此不应该出现多重共线性。
谁能解释多重共线性的原因并给出可能的解决方案?
我正在运行一个负二项式模型,我的预测变量之一是计数变量。由于这个变量严重偏斜,我决定对它进行对数转换。
然而,这个变量的影响被假设为非线性的。但是,只要我在模型中包含平方项,我就会得到这两个变量的 VIF > 20,而所有其他预测变量在 VIF 介于 1 和 5 之间时保持稳定。
据我目前的理解,这种关系不应该是线性的,因此不应该出现多重共线性。
谁能解释多重共线性的原因并给出可能的解决方案?
除了非常小的计数,本质上是的线性函数:
彩色线是最小二乘拟合到与的各种计数范围。超过 ,它们就非常好(即使左右仍然非常好)。
引入变量的平方有时用于测试拟合优度,但(根据我的经验)作为解释变量很少是一个好的选择。要考虑非线性响应,请考虑以下选项:
研究非线性的性质。选择适当的变量和/或转换来捕获它。
将计数本身保留在模型中。较大的计数仍然存在共线性,因此考虑从和创建一对正交变量,以实现数值稳定的拟合。
使用 (和/或 ) 的样条曲线来模拟非线性。
完全忽略这个问题。如果您有足够的数据,较大的 VIF 可能无关紧要。除非您的目的是获得精确的系数估计(您的转换意愿表明并非如此),否则共线性几乎不重要。
共线性的来源是。减少和居中。让并计算。因为尺度的低端现在有很大的绝对值,所以它的平方变大了,使得和之间的关系不如和之间的线性关系。该建议来自分析因子:http ://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/
注意:在解释效果时,请记住您缩放了协变量。此外,一些研究人员可能会警告不要进行缩放,因为您的模型的结果是依赖于数据的。以下是 Andrew Gelman 对此问题的一些看法:http: //andrewgelman.com/2009/07/11/when_to_standar/