为什么是Y应该在预测变量之前进行转换?

机器算法验证 回归 数据转换
2022-04-11 01:34:34

这些线程中的两个答案,一个两个都声称应该在对预测变量应用任何其他转换之前事实上Weisberg关于转换的章节更多地关注 DV 而不是预测器,R 汽车包 powerTransform() 手册页也是如此。Y

然而,我们知道 DV 分布的正态性不是 OLS 估计 BLUE 系数的要求,即使残差不是严格正态分布的,OLS 仍然是一个合理的估计量

那么为什么要强调改造呢?有几个原因我认为实际上最好不要转换:首先,它使 IVs 关系更难阅读,其次,在预测中,它需要从估计值反向转换到原始尺度。取决于你在做什么,这可能是一个问题。YYY

2个回答

变换 X 不会影响条件分布的形状,也不会影响异方差性,因此变换 X 实际上只用于处理非线性关系。(如果您正在拟合加法模型,它可能有助于消除交互,但即使这样通常最好留给转换 Y)

仅转换 X 有意义的示例:
在此处输入图像描述

如果那是 - 条件均值不适合 - 是您的主要问题,那么转换 X 可能是有意义的,但如果您因为条件 Y 的形状或异方差性而进行转换,那么如果您通过转换来解决这个问题(不一定是最佳选择,但我们将转换作为这个问题的给定值),那么您必须以某种方式转换 Y 来改变它。

例如,考虑一个条件方差与均值成正比的模型:

仅转换 X 无法解决问题的示例:
在此处输入图像描述

在 x 轴上移动值不会改变这样一个事实,即右侧值的分布比左侧值大。如果你想通过变换来修复这种变化的方差,你必须压低高 Y 值并伸展低 Y 值。

现在,如果您正在考虑转换 Y,这将改变响应和预测变量之间关系的形状......所以如果您想要一个线性模型(如果它在转换之前是线性的,以后不会了)。有时(如上面的第二个图),Y = 变换会同时使关系更加线性 - 但情况并非总是如此。

如果你要同时转换 X 和 Y,你想先做 Y,因为 Y 和 X 之间关系的形状发生了变化——通常你需要看看你转换后的关系是什么样的。然后,X 的后续变换将旨在获得关系的线性。

所以一般来说,如果你要进行转换,你通常需要转换 Y,如果你这样做,你几乎总是想先做。

最初转换 Y 是一种不合时宜的数据分析方法。我们的曾曾曾祖父这样做了,为什么我们不应该呢?有很多原因和您的帖子反映了高斯假设完全基于模型的错误,而不是 Y 系列是完全正确的。