通过对数据去相关来提高朴素贝叶斯分类器的性能

数据挖掘 统计数据 预处理 朴素贝叶斯分类器
2022-03-06 16:20:42

我想知道是否可以通过对数据进行去相关来提高朴素贝叶斯分类器的性能。朴素贝叶斯假设给定某些类的特征是条件独立的,这不一定是真的。P(a1,a2|c1)=P(a1|c1)P(a2|c1)

如果我们使用去相关将变换应用到空间中,这将导致所有特征的我们有如果独立,那么虽然反过来并不严格遵循(例如考虑两个因随机变量),但新特征将更接近独立。Cov(a1,a2)=0a1a2Cov(a1,a2)=0XNorm(0,1)X2

1个回答

正如您所指出的,空协方差并不能保证变量是独立的。您可以拥有显示协方差等于 0 的强因变量。请参阅从Pearson 相关系数的 Wikipedia 页面获取的著名图

各种双变量分布的 Pearson 相关系数

使变量不相关的标准方法是对数据集执行主成分分析,并使用根据定义不相关的所有成分。但请注意,朴素贝叶斯假设是条件独立的,因此每个类都是独立的。在一般情况下,PCA 投影不会因所选类别而异。

关于朴素贝叶斯的性能,我认为简单的转换没有理由改进模型。这得到了一些在类似问题上相当受欢迎的答案的支持,例如Stack Overflow 上的这个答案,或者Cross Validated 上的另一个答案。

但是,我已经阅读了几篇关于人们在朴素贝叶斯之前执行 PCA 时准确性得到提高的报告。例如,参见这里,关于这个主题的一些交流,在一个我不知道可信度的社区内;或通过您的网络搜索引擎搜索“PCA naive bayes”。

所以最后,我没有数学证据支持这一点,但我的感觉是转换前后的模型性能变化可能取决于问题,尤其是每个类的主成分的方向。

也许,如果您执行一些测试,您可以在这里分享结果。否则,我认为您可以在 Cross Validated 上获得更多数学背景的答案。