有人将平方根转换应用于他们的数据的主要原因是什么?我总是观察到这样做总是会增加。但是,这可能只是由于数据居中所致。任何想法表示赞赏!
对数据使用平方根变换的原因可能是什么?
一般来说,参数回归 / GLM 假设变量和每个变量之间的关系是线性的,一旦你拟合了模型,残差遵循正态分布,并且残差的大小一直保持大致相同沿着您的拟合线。当您的数据不符合这些假设时,转换可以提供帮助。
应该直观的是,如果成正比,那么平方根会使这种关系线性化,从而产生一个更好地拟合假设并解释更多方差的模型(具有更高的)。当您遇到残差的大小随着值的增加而逐渐增加的问题时,平方根也有帮助(即,当您沿着拟合线移动时,拟合线周围的数据点的分散变得更加明显)。想一想平方根函数的形状:它起初急剧增加,然后饱和。因此,应用平方根变换会使较小的数字膨胀,但会使较大的数字稳定。因此,您可以将其视为将小残差推低值远离拟合线,并将高值处的大残差压向线。(这是心理速记而不是正确的数学!)
正如 Dmitrij 和 ocram 所说,这只是一种可能的转换,在某些情况下会有所帮助,而 Box-Cox 公式等工具可以帮助您选择最有用的转换。我建议养成在拟合模型时始终查看残差图与拟合值(以及正态概率图或残差直方图)的习惯。你会发现你通常最终能够从这些中看到什么样的转变会有所帮助。
平方根变换只是 Box-Cox 幂变换的一个特例(Pengfi Li 的一个很好的概述,可能是有用的阅读,可以在这里找到),与并省略了一些居中。
Box-Cox 变换的目的是确保线性模型的通常假设成立。那是,.
然而,这个先验固定值可能(并且可能)不是最优的。在 R 中,您可以考虑car
库powerTransform
中的一个函数,该函数有助于估计参与线性回归的每个变量或您使用的任何数据的 Box-Cox 变换的最佳值(有关详细信息,请参阅example(powerTransform)
)。
当变量服从泊松分布时,平方根变换的结果会更接近于高斯分布。
有时提倡取平方根以使非正态变量在回归问题中看起来像正态变量。对数是另一种常见的可能变换。