我用非常小的数据集完成了一个简单的朴素贝叶斯分类任务。随着训练集大小从 100 个数据点增加到 300 个数据点,测试集上的 F1 分数降低。但为什么?有可能过拟合吗?我应该首先检查哪些地方来解释这种行为?
使用朴素贝叶斯分类器在测试集上的 F1 随着训练集大小的增加而减小。为什么?
数据挖掘
朴素贝叶斯分类器
2022-02-08 16:32:07
1个回答
过度拟合模型在训练集上显示的错误非常少,然后当你在测试集上对其进行测试时,它会严重失败。这可能是由于类不平衡,您可能提供了一些它没有看到的东西,或者由于使用了比您应该使用的更多数量的特征,从而使模型适合每个数据。Wiki页面是很好的概述。
回答你的下一个问题,可能已经知道的 F1 分数有两个组成部分,Precision 和 Recall。与FN、FP相比,检查是否有合理的TP、TN数量,如果您发现这些数字足够公平,那么 F1-score 只是您的一个指标。令人敬畏的 F1 分数没有基准分数。减少可能只是因为您的模型现在要预测的数据更多。
所以过拟合会导致 F1 分数降低,但 F1 分数降低并不意味着总是过拟合。