随机森林回归模型改进

数据挖掘 机器学习 scikit-学习 回归 预测建模 随机森林
2022-02-10 12:08:46

我正在研究车辆占用率预测,我对此非常陌生,我使用随机森林回归来预测占用率值。

随机森林 jupyter 笔记本

有大约 48 M 行,我已经使用所有数据来预测入住率,因为人口和入住率由于更高的数字而被标准化,我已经预测。我确定模型不好,我如何解释 RMSE 和 MAE 的结果。此外,该图表明它没有很好地预测,我是否以正确的方式来预测车辆的占用率。

请帮我解决以下问题,

  1. 随机森林回归是解决这个问题的好方法吗?
  2. 如何改进模型结果?
  3. 如何从结果中解释结果
1个回答

随机森林回归是解决这个问题的好方法吗?

总体而言,决策树往往不是好的回归器。但对于您的情况,它可能运行良好。您需要评估与指标对应的结果,然后比较不同的模型。

我喜欢回归模型中的 MAE,因为它非常直观。

如何改进模型结果?

请注意,决策树不需要缩放值来表现良好。考虑

确保模型中有有意义的特征。

尝试具有不同超参数的不同模型。

如果您有分类特征,请使用https://contrib.scikit-learn.org/category_encoders/

如何从结果中解释结果

如果您还没有缩放目标。你正在测量 MAE。

假设您的 MAE = 2。那么您的预测中的平均误差是 2 名乘客。