为什么对决策树进行对数转换为正态分布?

机器算法验证 机器学习 大车
2022-03-15 22:13:17

在An Introduction to Statistical Learning with Applications in R (James et al.)第 8 章的第 304 页上,作者说:

我们使用 Hitters 数据集根据 Years(他在大联盟打球的年数)和 Hits(他上一年的命中数)来预测棒球运动员的薪水。我们首先删除缺少 Salary 值的观测值,并对 Salary 进行对数变换,使其分布具有更多典型的钟形。(回想一下,薪水以数千美元计算。)

没有给出对数变换的额外动机。既然数据被输入到决策树算法中,为什么强制数据服从正态分布很重要?我认为大多数/所有决策树算法对于规模变化都是不变的。

2个回答

在这种情况下,薪水是决策树的目标(因变量/结果),而不是特征之一(自变量/预测变量)。您是正确的,决策树对预测变量的规模不敏感,但是由于我怀疑有少量非常大的薪水,因此转换薪水可能会改善预测,因为最小化平方误差的损失函数不会受到这些强烈影响大值。

我下载了去年的工资。他们很可能遵循帕累托分布。直方图如下所示。 工资

帕累托分布的 pdf 是

αxmαxα+1.

尺度参数xm是54.5万美元,是去年最低的工资。我估计了形状参数,α,使用 MLE 为 0.7848238。这很重要,因为当α<2,那么分布没有方差。更准确地说,它的方差是未定义的。如果您的任何变量缺少均值或方差,那么您就不能使用任何使平方损失最小化的方法。

变量对数的分布确实存在方差,因此您可以对它们使用最小二乘法。这实际上是您教科书中的一个严重遗漏。有些事情,比如既没有均值也没有方差的股票市场回报,或者没有方差的棒球薪水,将使 OLS 模型毫无意义。日志本质上不是最好的处理方法,但它确实有效。

拿日志不会给你一个钟形。原木销售

这完全是为了确定您的所有数据都有差异。如果满足 OLS 的所有假设,则基本分布无关紧要。它们可能看起来很疯狂,但必须在任何地方定义差异。

编辑正如 Therkel 在评论中指出的那样α<1那么也不存在平均值。Cliff AB 的评论我也应该接受。他认为分布是双重有界的,因此存在有限的方差和均值。作为经济学家,我不同意这一点。世界上的财富确实只有这么多,但我们不知道它是什么也是事实。此外,随着人们做出个人选择,财富每时每刻都在变化。

如果那个苹果从未被采摘过,那么不采摘那个苹果的工人就会减少财富,并且无论如何都会减少可用的财富。树上的苹果在采摘和加工之前没有收入价值。这使得右侧约束是随机的。出于棒球的目的,应将随机效​​应视为零。

棒球,作为世界产出的百分比,是如此微不足道,以至于你可以忽略它。美式足球、北美曲棍球或整个美国的现场舞台剧院也是如此。

您可以使用帕累托分布对这些数据进行建模这一事实意味着,如果估计值有效,您就没有均值或方差。如果你取对数,你最终会得到有限的方差。如果你将数据除以其最小值并取对数,你最终会得到指数分布,它表现得很好,但是你会遇到解释问题。