在进行回归之前,我正在对变量进行一些单变量分析。我认为这是非常倾斜的。 三个直方图是(1)原始变量;(2) log10 变换,以及 (3) 数据的 4.5 次幂的逆。
变量应该如何为回归做准备?
没有要求这些数据对于回归来说是正常的,只要求模型的残差。所以,做你的回归并检查残差,然后看看你是否需要转换任何东西。
您的原始数据看起来不错。我已经看到数据集的偏斜比这更极端。在进行任何转换之前,请进行回归并检查诊断(特别是,查看您的估计趋势是否有意义并且没有强有力的证据表明非可加性)。
如果您正在寻找数据的转换,您可能需要考虑本文中介绍的Box - Cox 转换。