对伯努利朴素贝叶斯算法的解释存疑

数据挖掘 朴素贝叶斯分类器
2022-02-12 18:53:47

我们说伯努利朴素贝叶斯假设所有连续特征的高斯分布。如果我在数据集中也有分类特征会发生什么?

在将 Bernoulli naive baeyes 应用于数据集之前,哪种类型的数据先验转换适合?

1个回答

伯努利朴素贝叶斯不假设所有连续特征的高斯分布,因为它没有意义。高斯朴素贝叶斯假设连续特征的高斯分布,如果您有连续特征,这是使用朴素贝叶斯方法的合适方法。

另一方面,如果您有二进制分类数据,那么合适的方法是伯努利朴素贝叶斯。如果您的特征是分类的但不是二进制的,那么您可以使用虚拟布尔变量将它们转换为二进制分类,用于分类特征的每个可用值。朴素贝叶斯算法的要点是特征独立的假设,这在一些现实世界的分类问题中并不成立。

您需要在给定类标签 y 的情况下指定特征值 x 的条件概率 p(x|y)。由于朴素贝叶斯假设所有特征在给定类的情况下都是条件独立的,因此您可以考虑关于它的任何先验知识,为每个特征混合不同的似然模型。

例如,考虑一个连续特征,您可能会假设 p(x|y) 是正态分布的,那么您可以估计训练集中每个类别下该特征的均值和方差,之后您可以使用正态分布的 PDF估计 p(x|y) 的分布。考虑到另一个分类特征,您可以使用伯努利或多项事件模型估计 p(x|y),并在最终预测中将两个条件概率相乘(因为它们被假定为独立的)。