我对随机森林相当陌生。过去,我总是将fit vs test与fit vs train的准确性进行比较,以检测任何过度拟合。但我只是在这里读到:
“在随机森林中,不需要交叉验证或单独的测试集来获得测试集误差的无偏估计。它是在内部估计的,在运行期间......”
上面的小段可以在袋外(oob)误差估计部分下找到。这个 Out of Bag Error 概念对我来说是全新的,有点令人困惑的是我的模型中的 OOB 错误是 35%(或 65% 的准确度),但是,如果我对我的数据应用交叉验证(只是一个简单的坚持方法)并将拟合与测试与拟合与训练进行比较,我分别得到 65% 的准确度和 96% 的准确度。根据我的经验,这被认为是过度拟合,但 OOB 包含 35% 的错误,就像我的拟合与测试错误一样。我过拟合了吗?我是否应该使用交叉验证来检查随机森林中的过度拟合?
简而言之,当我的拟合与训练表明我过度拟合时,我不确定是否应该相信 OOB 得到测试集错误的无偏错误!