为什么是Y应该在预测变量之前进行转换?
机器算法验证
回归
数据转换
2022-04-11 01:34:34
2个回答
变换 X 不会影响条件分布的形状,也不会影响异方差性,因此变换 X 实际上只用于处理非线性关系。(如果您正在拟合加法模型,它可能有助于消除交互,但即使这样通常最好留给转换 Y)
仅转换 X 有意义的示例:

如果那是 - 条件均值不适合 - 是您的主要问题,那么转换 X 可能是有意义的,但如果您因为条件 Y 的形状或异方差性而进行转换,那么如果您通过转换来解决这个问题(不一定是最佳选择,但我们将转换作为这个问题的给定值),那么您必须以某种方式转换 Y 来改变它。
例如,考虑一个条件方差与均值成正比的模型:
仅转换 X 无法解决问题的示例:

在 x 轴上移动值不会改变这样一个事实,即右侧值的分布比左侧值大。如果你想通过变换来修复这种变化的方差,你必须压低高 Y 值并伸展低 Y 值。
现在,如果您正在考虑转换 Y,这将改变响应和预测变量之间关系的形状......所以如果您想要一个线性模型(如果它在转换之前是线性的,以后不会了)。有时(如上面的第二个图),Y = 变换会同时使关系更加线性 - 但情况并非总是如此。
如果你要同时转换 X 和 Y,你想先做 Y,因为 Y 和 X 之间关系的形状发生了变化——通常你需要看看你转换后的关系是什么样的。然后,X 的后续变换将旨在获得关系的线性。
所以一般来说,如果你要进行转换,你通常需要转换 Y,如果你这样做,你几乎总是想先做。
最初转换 Y 是一种不合时宜的数据分析方法。我们的曾曾曾祖父这样做了,为什么我们不应该呢?有很多原因和您的帖子反映了高斯假设完全基于模型的错误,而不是 Y 系列是完全正确的。
其它你可能感兴趣的问题