决策树和随机森林过拟合

数据挖掘 随机森林 决策树 过拟合
2022-03-15 16:36:48

我正在研究一个真实的状态数据集,以根据面积、卧室数量、浴室数量和房子所在的城镇来预测在迪拜买房的价格。

除了我使用一种热编码和目标变换转换的城镇变量之外,所有变量都是数字的。

然后我应用了线性回归、决策树、随机森林,两种转换方法得到了相同的结果。

Algorithm            Train score        Test score  

linear regression    0.50               0.45
decision tree        0.93               0.79
random forest        0.94               0.77

从结果中,我可以读到(但不太确定)数据有信息并且具有很高的相关性分数,但模型过度拟合。我使用网格搜索来优化决策树的超参数,但结果并没有改善。

所以,问题是,我做错了什么?

1个回答

以下是一些可能有帮助的问题:

  1. 你有一个平衡的数据集吗?分布情况如何?
  2. 训练集和测试集的分布是否相似?
  3. 您是否尝试过使用交叉验证?
  4. 你的准确度指标是什么?
  5. 这些特征之间是否相互关联?
  6. 我还建议使用 xgboost 并比较其结果。