假设我有一个变量,其分布正向偏斜到非常高的程度,因此获取对数不足以使其处于正态分布的偏斜范围内。在这一点上我有什么选择?我该怎么做才能将变量转换为正态分布?
转换极度偏斜的分布
机器算法验证
数据转换
偏度
2022-01-23 23:05:35
3个回答
按照 Box, GEP 和 Cox, DR (1964), "An Analysis of Transformations," Journal of the Royal Statistical Society, Series B , 26, 211--234 尝试直接 Box-Cox 变换。SAS 在Normalizing Transformations中有对其对数似然函数的描述,您可以使用它来找到最优的参数,在 Atkinson, AC (1985), Plots, Transformations, and Regression , New York: Oxford University Press 中有描述。
使用 LL 函数很容易实现它,或者如果你有像 SAS 或 MATLAB 这样的统计包,请使用它们的命令:它是 MATLAB 中的boxcox命令和SAS 中的PROC TRANSREG。
此外,在 R 中,这是在 MASS 包的函数 boxcox() 中。
对于正偏斜(尾部在 x 轴的正端),有平方根变换、对数变换和逆/倒数变换(按严重性递增的顺序)。因此,如果对数转换不充分,您可以使用下一级转换。Box Cox 会自动运行所有转换,因此您可以选择最佳转换。
大多数软件套件将使用欧拉数作为默认的对数基数,AKA:自然对数。您可以使用更高的基数来控制过度右偏的数据。如何在语法方面进行操作取决于您使用的软件。
如果您需要在完成估计后从转换后的值中取回,使用此方法可能会更容易一些,因为您所要做的就是使用您的对数基数对变量执行指数运算符。
其它你可能感兴趣的问题