我正在解决一个机器学习问题,我有一些带有两个整数类型自变量和一个连续因变量的数据。我正在优化 RMSE。我的验证数据有相当大的 RMSE 值。我了解到我的模型在较大的目标值上表现不佳;因此,我尝试删除具有较大值的行,但这没有帮助。所以,现在在理解错误的过程中,我计算了每个真实值的 RMSE,它是来自验证集的预测,并绘制它以了解发生大错误的位置。显然,我的模型在较大的目标值方面仍然表现不佳。
这是显示真实值和预测之间关系的图: 如您所见,随着值变大,我的模型的预测变得更糟。我该如何防止这种情况?
关于我的数据的一些信息(只有我能透露的):
- 自变量和目标之间绝对没有线性关系。所以,我使用了基于树的模型,随机森林给了我相对较好的结果。
- 我什至可以说,我的两个自变量都可以称为类别非常高的分类变量。
- 此外,自变量中有很多值,它们只出现一次。
- 所有变量都高度向右倾斜。(IV_1 的范围:0 到 3,700;IV_2:0 到 40;目标变量:0 到 39,000)
如何降低我的 RMSE 或做些什么会降低它?