当模型在残基中显示系统模式时如何提高模型性能

数据挖掘 数据 数据科学模型 集成建模 助推
2022-02-20 14:34:45

我正在使用 Boosting 算法(CatBoost、XGBoost 和 LightGBM)研究回归模型。所有模型都给出了 0.2 RMSE 的相似精度(目标从 0 到 1 不等)。当我绘制残差时,我得到了以下图。我的模型对小目标值(接近零)的预测过高,对大目标值(接近 1)的预测过低。如何提高模型性能?该模型没有过度拟合,我正在进行详尽的超参数搜索和基本特征工程。

我试图理解为什么我在残差中有系统模式以及如何解决它们。我在这里浏览了一些关于残差的资源,但成功有限。

我怀疑该模型正试图在样本最多(~0.2-.5)的区域中尽力而为,而忽略了其他区域。为性能低下的区域分配更高的权重似乎并没有多大帮助。

n_samples = ~10k

目标平均值 = 0.3457

在此处输入图像描述 在此处输入图像描述

在此处输入图像描述

1个回答

尝试使用beta 回归,该回归专门设计用于对连续且受限于区间 (0, 1) 的目标值进行建模。

此外,存在不成比例的零值目标值,可以以分层方式建模。第一个模型预测零/非零目标值,然后是第二个模型,它是针对高于零和高达 1 的值的 beta 回归模型。