我的同事想在转换响应变量后分析一些数据,方法是将其提高到(那是,)。
我对此感到不舒服,但很难说出原因。我想不出这种转变的任何机械原理。我以前也从未见过它,我担心它可能会夸大 I 类错误率或其他什么——但我没有什么可以支持这些担忧!
此外,我的同事发现这些转换后的模型在 AIC 比较中优于未转换的模型。这本身是否证明了它的使用是合理的?
我的同事想在转换响应变量后分析一些数据,方法是将其提高到(那是,)。
我对此感到不舒服,但很难说出原因。我想不出这种转变的任何机械原理。我以前也从未见过它,我担心它可能会夸大 I 类错误率或其他什么——但我没有什么可以支持这些担忧!
此外,我的同事发现这些转换后的模型在 AIC 比较中优于未转换的模型。这本身是否证明了它的使用是合理的?
通常的做法是在响应上应用具有任意值的幂变换(Tukey,Box-Cox)。从这个角度来看,我认为您对 1/8 的值没有特别关注 - 如果该转换为您提供了良好的残差,那就去做吧。
当然,任何转换都会改变您适合的功能关系,并且可能是 1/8 在机械上没有意义,但是当目的不是推断或拟合物理参数时,这对我来说不是问题法律,但要在效果的符号上获得适当的 p 值(我认为这是回归中的正常用例)。为此,您唯一关心的是该函数是否适合您的预测值域中的数据(均值和残差),这很容易检查。
如果您不确定幂变换的最佳值,并且想要在不同选项之间进行比较,则不应直接比较 AIC/似然值,因为幂变换会改变响应的规模。幸运的是,事实证明计算转换的校正相对简单,这样可以通过它们的(校正的)可能性来比较不同的转换(参见,例如这里)。
在 R 中,这是在 MASS::boxcox 中实现的——这是为幂选择正确值的便捷方式。