用于二元分类的朴素贝叶斯分类器的少量训练数据集

数据挖掘 机器学习 分类 监督学习 朴素贝叶斯分类器 贝叶斯网络
2022-03-08 15:45:09

我正在使用朴素贝叶斯分类器为 ODI 格式的年轻板球运动员实施预测系统。系统的输出是预测年轻球员是否是后起之秀。我从 espncricinfo 的 statsguru API 收集了数据,但我从 ODI 只获得了大约 300 条玩家记录。训练数据集是不是很小?

2个回答

实际上在机器学习中,更多的数据等于更高的准确性,但是正如您在问题中提到的那样,您有 300 个样本数据集。因此,分类器几乎没有空间来决定应该选择谁,但是如果您的类和特征数量较少,您可能会变得更好结果。当我根据传感器数据做我的项目时,我只使用了来自传感器的大约 100 个样本记录,它实际上预测得非常好,得到了 77 的准确度,一旦我增加数据集,它就会增长。但不要训练它带有异常值和不需要的功能之类的噪音,它们会极大地影响您的准确性

我认为 300 的尺寸已经足够了。尝试进行拆分验证,看看你得到什么样的结果。我实现了一个带有 100 行数据集的朴素贝叶斯分类器,结果还不错。我的应用程序是文本分类,但尝试使用您的数据,让我们看看准确性如何。当然,您将需要训练数据,因此您可能必须首先通过自己对它们进行分类来创建一些数据行。