使用朴素贝叶斯分类器在测试集上的 F1 随着训练集大小的增加而减小。为什么?

数据挖掘 朴素贝叶斯分类器
2022-02-08 16:32:07

我用非常小的数据集完成了一个简单的朴素贝叶斯分类任务。随着训练集大小从 100 个数据点增加到 300 个数据点,测试集上的 F1 分数降低。但为什么?有可能过拟合吗?我应该首先检查哪些地方来解释这种行为?

1个回答

过度拟合模型在训练集上显示的错误非常少,然后当你在测试集上对其进行测试时,它会严重失败。这可能是由于类不平衡,您可能提供了一些它没有看到的东西,或者由于使用了比您应该使用的更多数量的特征,从而使模型适合每个数据。Wiki页面是很好的概述。

回答你的下一个问题,可能已经知道的 F1 分数有两个组成部分,Precision 和 Recall与FN、FP相比,检查是否有合理的TP、TN数量,如果您发现这些数字足够公平,那么 F1-score 只是您的一个指标。令人敬畏的 F1 分数没有基准分数。减少可能只是因为您的模型现在要预测的数据更多。

所以过拟合会导致 F1 分数降低,但 F1 分数降低并不意味着总是过拟合。