数据挖掘 - 使用朴素贝叶斯分类器在测试集上的 F1 随着训练集大小的增加而减小。为什么？ - 吾爱随笔录

使用朴素贝叶斯分类器在测试集上的 F1 随着训练集大小的增加而减小。为什么？

数据挖掘朴素贝叶斯分类器

2022-02-08 16:32:07

我用非常小的数据集完成了一个简单的朴素贝叶斯分类任务。随着训练集大小从 100 个数据点增加到 300 个数据点，测试集上的 F1 分数降低。但为什么？有可能过拟合吗？我应该首先检查哪些地方来解释这种行为？

1个回答

过度拟合模型在训练集上显示的错误非常少，然后当你在测试集上对其进行测试时，它会严重失败。这可能是由于类不平衡，您可能提供了一些它没有看到的东西，或者由于使用了比您应该使用的更多数量的特征，从而使模型适合每个数据。Wiki页面是很好的概述。

回答你的下一个问题，可能已经知道的 F1 分数有两个组成部分，Precision 和 Recall。与FN、FP相比，检查是否有合理的TP、TN数量，如果您发现这些数字足够公平，那么 F1-score 只是您的一个指标。令人敬畏的 F1 分数没有基准分数。减少可能只是因为您的模型现在要预测的数据更多。

所以过拟合会导致 F1 分数降低，但 F1 分数降低并不意味着总是过拟合。

其它你可能感兴趣的问题

上一篇有哪些工具可用于 ML 的编程语言解析？下一篇是否存在用于神经网络增量特征学习的良好算法？是否有任何 python ML 库实现了这样的算法？