我正在使用 Boosting 算法(CatBoost、XGBoost 和 LightGBM)研究回归模型。所有模型都给出了 0.2 RMSE 的相似精度(目标从 0 到 1 不等)。当我绘制残差时,我得到了以下图。我的模型对小目标值(接近零)的预测过高,对大目标值(接近 1)的预测过低。如何提高模型性能?该模型没有过度拟合,我正在进行详尽的超参数搜索和基本特征工程。
我试图理解为什么我在残差中有系统模式以及如何解决它们。我在这里浏览了一些关于残差的资源,但成功有限。
我怀疑该模型正试图在样本最多(~0.2-.5)的区域中尽力而为,而忽略了其他区域。为性能低下的区域分配更高的权重似乎并没有多大帮助。
n_samples = ~10k
目标平均值 = 0.3457


