“不倾斜”倾斜数据的好处
机器算法验证
机器学习
数理统计
数据转换
偏度
2022-03-18 14:37:13
1个回答
尼克考克斯在他的评论中提出了很多好的观点。让我将其中一些(以及我自己的一些)放入答案格式中:
首先,普通最小二乘回归没有假设因变量是正态分布的;它假设误差是正常的,误差由残差估计。但是,当因变量与您的一样偏斜时,残差通常也会如此。
其次,您在许多介绍性书籍中发现出于统计原因而强调转换是因为该书想要展示一个人如何在不同情况下使用 OLS 回归(不幸的是,一些非统计学课程的教授确实不这样做)不知道替代品)。在旧书中,这也可能是因为某些替代方法过于计算机密集而无法使用。
第三,我认为数据应该出于实质性原因进行转换,而不是统计原因。在这里,对于更一般的价格数据,记录日志通常是有意义的。两个原因是 1) 人们经常以乘法而不是加法来考虑价格 - 2,000,000 美元和2,001,000 美元之间的差异非常小。2,000美元和 2,100美元之间的差价要大得多。2)当你取日志时,你不能得到一个负的预测价格。
第四,如果您决定不进行转换(出于某种原因),那么有些方法不会假设残差是正常的。两个突出的是分位数回归和稳健回归。
其它你可能感兴趣的问题