“不倾斜”倾斜数据的好处

机器算法验证 机器学习 数理统计 数据转换 偏度
2022-03-18 14:37:13

我正在使用 Ames 房屋定价数据集做一个 kaggle 操场问题,发现销售价格在发生频率方面严重倾斜。 在此处输入图像描述

一个教程指出,偏斜的数据不利于回归建模,应该通过自然对数来“消除”数据的偏斜。所有这些都是毫无道理的,为什么会这样。对我来说,数据的偏度是数据的一部分,不应该被篡改以避免过度拟合的情况。

我错了吗?谁能解释为什么不倾斜是一种有效的做法以及它会对错误率产生什么影响?

1个回答

尼克考克斯在他的评论中提出了很多好的观点。让我将其中一些(以及我自己的一些)放入答案格式中:

首先,普通最小二乘回归没有假设因变量是正态分布的;它假设误差是正常的,误差由残差估计。但是,当因变量与您的一样偏斜时,残差通常也会如此。

其次,您在许多介绍性书籍中发现出于统计原因而强调转换是因为该书想要展示一个人如何在不同情况下使用 OLS 回归(不幸的是,一些非统计学课程的教授确实不这样做)不知道替代品)。在旧书中,这也可能是因为某些替代方法过于计算机密集而无法使用。

第三,我认为数据应该出于实质性原因进行转换,而不是统计原因。在这里,对于更一般的价格数据,记录日志通常是有意义的。两个原因是 1) 人们经常以乘法而不是加法来考虑价格 - 2,000,000 美元和2,001,000 美元之间的差异非常小。2,000美元和 2,100美元之间的差价要大得多。2)当你取日志时,你不能得到一个负的预测价格。

第四,如果您决定进行转换(出于某种原因),那么有些方法不会假设残差是正常的。两个突出的是分位数回归和稳健回归。