我目前正在从事一个涉及预测租期长度的项目。到目前为止,我已经设法处理数据并将我的随机森林模型(通过 Python 中的 sklearn)修剪到以下准确度级别(以天为单位):
Train MAE: 131
Train R^2: 0.906
Test MAE: 259 (using cross-validation)
Test R^2: 0.651
虽然该模型对于该行业来说是不错的,但还有更多的性能可以从中挤出。它目前高估了结果,并且对 imo 的测试数据的准确性很差。
我想进一步开发一种神经网络方法,因为我最初实现的 MLP 回归器似乎很有希望:
Train MAE: 301
Train R^2: 0.582
Test MAE: 338 (using cross-validation)
Test R^2: 0.522
我的问题是,除了使用 GridSearch 在 sklearn 中使用 MLPRegression 函数之外,我如何改进预测结果(使用 Python)?在这种情况下是否有任何其他模型可能有用?(我也尝试过决策树,梯度提升)
如果相关,我的数据集包含自 2008 年以来的约 5000 个个人租赁条目,其中包含:租赁日期、租金、维修成本、财产信息和更换、客户信息等,目前有 41 个变量。

