如何处理目标偏斜且只有少数高值的回归问题?

数据挖掘 机器学习 回归 决策树 交叉验证
2022-02-13 14:58:08

我目前正在解决带有倾斜目标变量的回归问题(如下所示)。 在此处输入图像描述

自然,我的第一个想法是用自然对数转换目标,因为它可能有助于线性回归或基于决策树的算法。第二个想法是准备一个类似于分层 k 折交叉验证的验​​证方案,目标分为 n 个组。但是,我担心的是我只有几个最高值:

在此处输入图像描述

因此,我的测试集和所有验证集的错误高度依赖于这 4 个极值之一是否被绘制在其中。这使得很难获得可靠的真实误差估计。

我还能做些什么来处理这个问题吗?

1个回答

您可以通过适当的变换生成对称分布:您的分布主要是右偏的,因此需要 log10 变换。

您还可以使用自动分箱方法并将其与尖峰的虚拟变量结合使用。

如果您随后执行特征选择,学习者将自动选择最重要的特征。像 XGBoost 这样的学习器会自动处理多重共线性。