样本外数据过度拟合的模型准确率是否为 100%?

数据挖掘 r 随机森林 预言 过拟合
2021-10-12 03:46:49

我刚刚完成了cognitiveclass.ai 上的R 机器学习课程,并开始尝试使用随机森林。

我使用 R 中的“randomForest”库制作了一个模型。该模型按两个类进行分类,好的和坏的。

我知道当一个模型过拟合时,它在来自自己的训练集的数据上表现良好,但在样本外数据上表现不佳。

为了训练和测试我的模型,我将整个数据集打乱并拆分为 70% 用于训练和 30% 用于测试。

我的问题:我从测试集上的预测中得到了 100% 的准确率。这很糟糕吗?这似乎好得令人难以置信。

目标是在四个相互依赖的波形上进行波形识别。该数据集的特征是波形及其目标波形的动态时间扭曲分析的成本结果。

2个回答

像准确性这样的高验证分数通常意味着您没有过度拟合,但它应该导致谨慎并且可能表明出现问题。这也可能意味着问题并不太难,并且您的模型确实表现良好。可能出错的两件事:

  • 您没有正确拆分数据,并且验证数据也出现在您的训练数据中,这意味着它确实表明过度拟合,因为您不再测量泛化
  • 您使用一些特征工程来创建额外的特征,并且您可能已经引入了一些目标泄漏,您的行正在使用来自当前目标的信息,而不仅仅是来自训练集中的其他目标

调查以了解您最具预测性的功能是什么。有时您不小心将您的目标(或与您的目标等效的东西)包含在您的功能中。