我有一个数据集,最多包含 150 个示例(分为训练和测试),具有许多特征(高于 1000)。我需要比较在数据上表现良好的分类器和特征选择方法。因此,我使用了三种分类方法(J48、NB、SVM)和两种特征选择方法(CFS、WrapperSubset)和不同的搜索方法(Greedy、BestFirst)。
在比较时,我正在查看训练准确度(5 倍交叉折叠)和测试准确度。
这是 J48 和 CFS-BestFirst 的结果之一:
{“准确性训练”:95.83,“准确性测试”:98.21}
很多结果都是这样的,在SVM上有很多结果表明测试准确率远高于训练(训练:60%,测试:98%)
我怎样才能有意义地解释这些结果?如果它更低,我会说它过度拟合。通过查看所有结果,在这种情况下,关于偏差和方差有什么要说的吗?我可以做些什么来使这种分类有意义,例如重新选择训练和测试集或仅对所有数据使用交叉验证?
我有 73 个训练实例和 58 个测试实例。有些答案在发布时没有此信息。