朴素贝叶斯中特征假设的独立性

数据挖掘 可能性 朴素贝叶斯分类器 朴素贝叶斯算法
2022-03-09 01:41:11

在应用朴素贝叶斯之前,我们如何知道您在我的数据集中的特征是否独立?基本上我想知道,如果朴素贝叶斯能给出不错的结果,我们是否有可能在训练我们的模型之前得到一个想法。

2个回答

统计独立性是一件非常简单的事情。如果

p(AB)=p(A)p(B)
然后AB是独立的(换句话说,如果边际分布等于条件)。如果你愿意,你甚至可以检查你的数据。虽然检查起来会更容易:
p(A|B)=p(A) and p(B|A)=p(B)
而不是构建联合分布。后者很容易,如果你的特征是分类的,那么你可以估计 p(A),p(B),p(A|B),P(B|A)作为采样频率。如果 A 或 B 之一是分类计算也很简单。如果 A 和 B 都是数字,则需要将 KDE(核密度估计)模型拟合到所有概率分布。

但是,在实践中,仅拟合朴素贝叶斯并在测试集上检查其性能会更简单、更快。

您可以尝试计算特征之间的互信息sklearn可以做到)。

您可以估计PearsonSpearman 的相关系数

您可以尝试训练类似的模型来预测给定另一个特征,并使用准确性来确定。