什么情况会导致两个不同的分类器对数据进行完全一样的分类

数据挖掘 文本挖掘 神经网络 支持向量机
2022-03-10 04:33:04

好了,背景来了:我在做文本挖掘,我的基本流程是这样的:提取特征(n-gram),减少特征计数,打分(tf-idf)和分类。为了我自己的缘故,我正在比较 SVM 和神经网络分类器。这是奇怪的部分(或者我错了,这是合理的吗?),如果我使用 2gram,分类器的结果(准确度/精度)是不同的,而 SVM 是更好的;但是当我使用 3-gram 时,结果是完全一样的。是什么原因造成的?有什么解释吗?是非常可分离的类的情况吗?

1个回答

你的结果是合理的。您的数据让我想到了几个想法:

1)当你改变可用的特征时,这将改变机器学习方法的相对性能是很合理的。这种情况经常发生。哪种机器学习方法表现最好通常取决于特征,所以当你改变特征时,最好的方法也会改变。

2)在某些情况下,不同的模型会达到完全相同的结果是合理的。这很可能发生在数据点数量足够少或数据足够可分离以至于两个模型对所有测试点得出完全相同的结论的情况下。