我正在研究一个真实的状态数据集,以根据面积、卧室数量、浴室数量和房子所在的城镇来预测在迪拜买房的价格。
除了我使用一种热编码和目标变换转换的城镇变量之外,所有变量都是数字的。
然后我应用了线性回归、决策树、随机森林,两种转换方法得到了相同的结果。
Algorithm Train score Test score
linear regression 0.50 0.45
decision tree 0.93 0.79
random forest 0.94 0.77
从结果中,我可以读到(但不太确定)数据有信息并且具有很高的相关性分数,但模型过度拟合。我使用网格搜索来优化决策树的超参数,但结果并没有改善。
所以,问题是,我做错了什么?