数据挖掘 - 回归中正偏斜的目标标签 - 吾爱随笔录

回归中正偏斜的目标标签

数据挖掘机器学习回归预处理不平衡学习

2022-02-20 20:59:58

我有一个数据集，其中目标标签正偏斜并产生长尾，目前在尝试一些线性、基于树和神经网络回归模型时，这些值的残差很高。

我在波士顿住房预测数据集上看到了同样的问题，并建议将对数转换应用于目标标签。这带来了一些小的改进，但还不够。此外，我尝试在尾部随机复制值以改变平均值，尽管我对方法并不太满意。

是否有任何替代转换可以应用，或者任何模型可以对具有高残差的标签赋予更高的成本权重？

1个回答

可能有效的方法是将输出标准化/标准化，例如目标超过 [0,1]（请参阅 min-max scaling）。改变分布并不理想，我看不出改变平均值会如何提高性能。如果有意义，您还可以尝试从严格的连续线性回归更改为分类解释（请参阅序数回归）。分类通常比回归容易，所以如果你能够以这种方式构建它，有时它会有助于提高性能，特别是如果最终目标是，例如，只是确定一个二元决策（买/不买）。

比如对于收入来说，超过严格数量的回归会导致不平衡，1000亿和5000亿之间的差值可以忽略不计。如果您可以接受分类可能有用，您可以使用逻辑回归、SVM 等并尝试生成分类而不是直接预测。

其它你可能感兴趣的问题

上一篇平均奖励强化学习下一篇Predict_proba 关于二元分类问题