我将逻辑回归模型 Y ~ X1...X10 拟合到 10,000 个观察值,我的目标是估计每个协变量对 Y 的影响。
我的第一个问题是决定将哪些转换应用于预测变量。它们都具有非常偏斜的分布,并且在某些情况下具有很少 (<6) 的值。我在下面包含了一个典型的直方图。将它们作为因子或以其他方式应用一些功率转换是否有意义?
我在诊断模型时遇到了一些麻烦。拟合度相当差——分类率只有65%,偏差为:
Null deviance: 13568 on 9999 degrees of freedom
Residual deviance: 13143 on 9989 degrees of freedom
下面显示的诊断图似乎表明:
- 有一些非常高的杠杆,高残差点影响模型的拟合。我认为这些分布尾部的点并不代表其余数据。转换数据会解决这个问题吗?
- 残差肯定不是正态分布的。模型未能捕捉到一个趋势。我应该如何找到这种趋势?
- 偏差残差绝对不是正态分布的。
我想我的主要问题是如何找到合适的数据转换,以及解释数据中剩余方差的最佳下一步。

