朴素贝叶斯分类的最佳特征选择方法

机器算法验证 r 机器学习 分类 特征选择 朴素贝叶斯
2022-03-19 16:47:40

我想用朴素贝叶斯进行分类。我有大约 100 个功能。数字的和分类的。因为我只想将最相关的那些包含在分类任务中,所以我想通过某种特征消除来找到它们。我现在的问题是:将其用于(论文/参考?!)的方法是什么,这种方法是否在某种软件包中实现。因为我使用 R,所以我特别喜欢一些 R 包。

在此先感谢您的帮助!

2个回答

您可以选择两种不同的路线。关键词是“相关性”,以及你如何解释它。

1)您可以使用卡方检验或互信息进行特征相关性提取,如本链接中详细说明的那样

简而言之,互信息衡量特定术语的存在或不存在有助于做出正确分类决策的信息量。

另一方面,您可以使用卡方检验来检查特定变量的出现和特定类的出现是否独立。

在 R 中实现这些应该是直截了当的。

2)或者,您可以采用包装特征选择策略,其中主要目标是构建和选择对构建准确分类器有用的特征子集。这与 1 形成对比,其中目标是查找或排列所有可能相关的变量。

请注意,选择最相关的变量通常不是提高分类器准确性的最佳选择,尤其是在变量是冗余的情况下。相反,有用变量的子集可能会排除许多冗余但相关的变量。

R 包caret(**C**lassification **A**nd **R**Egression **T**raining)具有内置的特征选择工具并支持朴素贝叶斯。我想我会把它作为答案而不是评论发布,因为我对这个更有信心,过去自己使用过它。