为逻辑回归转换连续变量

机器算法验证 回归 物流 数据转换 偏度
2022-03-04 02:15:00

我有大量调查数据、二元结果变量和许多解释变量,包括二元和连续变量。我正在构建模型集(同时使用 GLM 和混合 GLM 进行实验)并使用信息论方法来选择顶级模型。我仔细检查了相关性的解释(连续的和分类的),我只使用了相同模型中 Pearson 或 Phicorr 系数小于 0.3 的解释。我想给我所有的连续变量一个公平的机会来竞争顶级模型。以我的经验,基于偏斜转换那些需要它的人可以改善他们参与的模型(降低 AIC)。

我的第一个问题是:这种改进是因为转换提高了 logit 的线性度吗?还是通过使数据更加对称,纠正偏斜以某种方式改善了解释变量的平衡?我希望我能理解这背后的数学原因,但现在,如果有人能用简单的术语来解释这一点,那就太好了。如果您有任何我可以使用的参考资料,我将不胜感激。

许多互联网站点说,因为正态性不是二元逻辑回归的假设,所以不要转换变量。但我觉得,如果不转换我的变量,我会让一些变量与其他变量相比处于劣势,它可能会影响顶级模型并改变推理(嗯,它通常不会,但在某些数据集中它会)。我的一些变量在对数转换时表现更好,一些在平方时(不同的偏斜方向)和一些未转换。

有人能给我一个指导方针,在转换逻辑回归的解释变量时要注意什么,如果不这样做,为什么不呢?

2个回答

您应该谨慎地决定是否仅根据统计数据转换变量。你必须看解释。中是线性的是否合理中更可能是线性的为了讨论这个问题,我们需要知道你的变量......举个例子:独立于模型拟合,我不相信死亡率是年龄的线性函数!xlog(x)

既然你说你有“大数据”,你可以研究样条曲线,让数据谈论转换......例如,在 R 中打包 mgcv。但即使使用这种技术(或其他自动搜索转换的方法),终极考验是问问自己什么是科学的¿ 您所在领域的其他人如何处理类似数据?

关键问题是在现实世界中应该代表什么数字,以及这些变量和因变量之间的假设关系是什么。你可以通过“清理”你的数据来改进你的模型,但如果它不能更好地反映现实世界,你就失败了。也许您的数据分布意味着您的建模方法不正确,您需要完全不同的方法,也许您的数据有问题。

如果变量具有 corr>.3 ,为什么要删除它们超出了我的范围。也许这些事情确实是相关的,并且两者对因变量都很重要。您可以使用表示相关变量的联合贡献的索引或函数来处理此问题。看来您是根据任意统计标准盲目地丢弃信息。为什么不使用 corr>.31 或 .33?