我有一个数据集,其中目标标签正偏斜并产生长尾,目前在尝试一些线性、基于树和神经网络回归模型时,这些值的残差很高。
我在波士顿住房预测数据集上看到了同样的问题,并建议将对数转换应用于目标标签。这带来了一些小的改进,但还不够。此外,我尝试在尾部随机复制值以改变平均值,尽管我对方法并不太满意。
是否有任何替代转换可以应用,或者任何模型可以对具有高残差的标签赋予更高的成本权重?
我有一个数据集,其中目标标签正偏斜并产生长尾,目前在尝试一些线性、基于树和神经网络回归模型时,这些值的残差很高。
我在波士顿住房预测数据集上看到了同样的问题,并建议将对数转换应用于目标标签。这带来了一些小的改进,但还不够。此外,我尝试在尾部随机复制值以改变平均值,尽管我对方法并不太满意。
是否有任何替代转换可以应用,或者任何模型可以对具有高残差的标签赋予更高的成本权重?
可能有效的方法是将输出标准化/标准化,例如目标超过 [0,1](请参阅 min-max scaling)。改变分布并不理想,我看不出改变平均值会如何提高性能。如果有意义,您还可以尝试从严格的连续线性回归更改为分类解释(请参阅序数回归)。分类通常比回归容易,所以如果你能够以这种方式构建它,有时它会有助于提高性能,特别是如果最终目标是,例如,只是确定一个二元决策(买/不买)。
比如对于收入来说,超过严格数量的回归会导致不平衡,1000亿和5000亿之间的差值可以忽略不计。如果您可以接受分类可能有用,您可以使用逻辑回归、SVM 等并尝试生成分类而不是直接预测。