朴素贝叶斯和多项朴素贝叶斯之间的区别

机器算法验证 贝叶斯 分类 文本挖掘 朴素贝叶斯
2022-02-07 11:56:09

我之前处理过朴素贝叶斯分类器。我最近一直在阅读有关多项式朴素贝叶斯的文章。

还有后验概率=(先验*可能性)/(证据)

我在朴素贝叶斯和多项朴素贝叶斯之间发现的唯一主要区别(在对这些分类器进行编程时)是

多项朴素贝叶斯计算可能性是一个单词/标记(随机变量)的计数,朴素贝叶斯计算可能性如下:

在此处输入图像描述

如我错了请纠正我!

2个回答

一般术语朴素贝叶斯是指模型中的强独立性假设,而不是每个特征的特定分布。朴素贝叶斯模型假设它使用的每个特征在给定某个类的情况下是有条件地相互独立的。更正式地说,如果我想计算观察特征的概率f1通过fn,给定某个类 c,在朴素贝叶斯假设下,以下成立:

p(f1,...,fn|c)=i=1np(fi|c)

这意味着当我想使用朴素贝叶斯模型对新示例进行分类时,后验概率的使用要简单得多:

p(c|f1,...,fn)p(c)p(f1|c)...p(fn|c)

当然,这些独立性假设很少是正确的,这可以解释为什么有些人称该模型为“白痴贝叶斯”模型,但在实践中朴素贝叶斯模型的表现出奇地好,即使在复杂的任务中,强独立性假设是错误的。

到目前为止,我们还没有谈到每个特征的分布。换句话说,我们离开了p(fi|c)不明确的。多项式朴素贝叶斯这个术语只是让我们知道,每个p(fi|c)是多项分布,而不是其他一些分布。这适用于可以轻松转换为计数的数据,例如文本中的字数。

您与朴素贝叶斯分类器一起使用的分布是高斯 pdf,所以我想您可以将其称为高斯朴素贝叶斯分类器。

总之,朴素贝叶斯分类器是一个通用术语,指的是模型中每个特征的条件独立性,而多项朴素贝叶斯分类器是朴素贝叶斯分类器的一个特定实例,它对每个特征使用多项分布。

参考:

斯图尔特·J·罗素和彼得·诺维格。2003. 人工智能:一种现代方法(第 2 版)。培生教育。见第 499 参考“白痴贝叶斯”以及朴素贝叶斯模型的一般定义及其独立性假设

一般来说,要为 n 维数据和 k 个类别训练朴素贝叶斯,您需要估计P(xi|cj)对于每个1in,1jk. 您可以假设任何对的任何概率分布(i,j)(虽然最好不要假设离散分布P(xi|cj1)并且连续为P(xi|cj2))。您可以对一个变量进行高斯分布,对另一个变量进行泊松分布,对另一个变量进行一些离散。

多项朴素贝叶斯简单地假设所有对的多项分布,这在某些情况下似乎是一个合理的假设,即文档中的字数。