我有大量调查数据、二元结果变量和许多解释变量,包括二元和连续变量。我正在构建模型集(同时使用 GLM 和混合 GLM 进行实验)并使用信息论方法来选择顶级模型。我仔细检查了相关性的解释(连续的和分类的),我只使用了相同模型中 Pearson 或 Phicorr 系数小于 0.3 的解释。我想给我所有的连续变量一个公平的机会来竞争顶级模型。以我的经验,基于偏斜转换那些需要它的人可以改善他们参与的模型(降低 AIC)。
我的第一个问题是:这种改进是因为转换提高了 logit 的线性度吗?还是通过使数据更加对称,纠正偏斜以某种方式改善了解释变量的平衡?我希望我能理解这背后的数学原因,但现在,如果有人能用简单的术语来解释这一点,那就太好了。如果您有任何我可以使用的参考资料,我将不胜感激。
许多互联网站点说,因为正态性不是二元逻辑回归的假设,所以不要转换变量。但我觉得,如果不转换我的变量,我会让一些变量与其他变量相比处于劣势,它可能会影响顶级模型并改变推理(嗯,它通常不会,但在某些数据集中它会)。我的一些变量在对数转换时表现更好,一些在平方时(不同的偏斜方向)和一些未转换。
有人能给我一个指导方针,在转换逻辑回归的解释变量时要注意什么,如果不这样做,为什么不呢?