在我正在研究的一个小型文本分类问题中,朴素贝叶斯一直表现出与 SVM 相似或更高的性能,我非常困惑。
我想知道是什么因素决定了一种算法胜过另一种算法。是否存在在 SVM 上使用朴素贝叶斯毫无意义的情况?有人可以解释一下吗?
在我正在研究的一个小型文本分类问题中,朴素贝叶斯一直表现出与 SVM 相似或更高的性能,我非常困惑。
我想知道是什么因素决定了一种算法胜过另一种算法。是否存在在 SVM 上使用朴素贝叶斯毫无意义的情况?有人可以解释一下吗?
对于给定的数据集,哪种分类方法是最佳分类方法并没有统一的答案。对于给定数据集的比较研究,应始终考虑不同类型的分类器。鉴于数据集的属性,您可能有一些线索可能会优先考虑某些方法。但是,如果可能的话,仍然建议对所有人进行试验。
朴素贝叶斯分类器 (NBC) 和支持向量机 (SVM) 具有不同的选项,包括为每个选项选择核函数。它们都对参数优化很敏感(即不同的参数选择可以显着改变它们的输出)。因此,如果您的结果显示 NBC 的性能优于 SVM。这仅适用于所选参数。但是,对于另一个参数选择,您可能会发现 SVM 的性能更好。
一般来说,如果您的数据集的变量满足 NBC 中的独立性假设并且类重叠的程度很小(即潜在的线性决策边界),则预计 NBC 会取得良好的效果。例如,对于某些数据集,通过使用包装器特征选择进行优化,NBC 可能会击败其他分类器。即使它达到了可比的性能,NBC 也会因为它的高速度而更受欢迎。
总之,如果任何分类方法在一种情况下优于其他分类方法,我们不应该更喜欢它,因为它可能在另一种情况下严重失败。(这在数据挖掘问题中很正常)。