我有计算机科学背景,但我试图通过解决互联网上的问题来自学数据科学。
过去几周我一直在解决这个问题(大约 900 行和 10 个功能)。我最初使用逻辑回归,但现在我已切换到随机森林。当我在训练数据上运行我的随机森林模型时,我得到了非常高的 auc 值(> 99%)。但是,当我在测试数据上运行相同的模型时,结果并不是那么好(准确度约为 77%)。这让我相信我过度拟合了训练数据。
防止随机森林过度拟合的最佳实践是什么?
我使用 r 和 rstudio 作为我的开发环境。我正在使用该randomForest
软件包并接受所有参数的默认值