我是一名学生,目前正在尝试创建分类模型,但是我很难理解一个奇怪的过度拟合问题。
一个包含大约 30 000 个条目、30 个特征的数据集。数据按输入日期排序。我将数据分成 80% 的训练和 20% 的测试。我使用随机森林得到了大约 98% 的训练准确率和大约 71% 的测试准确率。当我删除 3 个特定参数时,过度拟合消失了,我得到了 73% 的训练准确率和 68% 的测试准确率。这意味着这 3 个参数会导致大量的过拟合。当我对数据进行洗牌时,会发生奇怪的事情。使用所有 30 个参数,训练准确率保持在 98%,测试准确率达到 92%。对我来说,这表明这 3 个特征值在数据的最后一个月左右发生了意外变化(数据在改组之前按日期排序),并且改组它们为模型提供了上个月的足够示例来获取突然的变化。但是绘制它们的值/天的平均值,对于整个日期范围表明它们在整个数据中遵循相同的季节性,并且没有奇怪的变化。有人可以给我一些想法来解释为什么改组数据有助于大量减少过度拟合吗?