伯努利和多项朴素贝叶斯之间的区别

数据挖掘 朴素贝叶斯分类器
2021-10-13 11:45:48

这是我对伯努利和多项朴素贝叶斯之间区别的理解:

伯努利明确地对特征的存在/不存在进行建模,而多项式则没有。

  • 有什么我想念的吗?
  • 有人可以直观地解释为什么这种差异很重要吗?也许使用一个你显然会使用一个而不是另一个的例子

在维基百科页面上,他们说:

请注意,具有伯努利事件模型的朴素贝叶斯分类器与频率计数截断为 1 的多项式 NB 分类器不同。

这是为什么?

1个回答

伯努利对特征的存在/不存在进行建模。多项式对特征的计数进行建模。这是一个简明的解释

维基百科警告说

请注意,具有伯努利事件模型的朴素贝叶斯分类器与频率计数截断为 1 的多项式 NB 分类器不同。

为了理解为什么,我们应该注意到,正如这个页面很好地解释的那样,

二项分布将伯努利分布推广到试验次数,而多努利分布将其推广到结果数量,即掷骰子而不是掷硬币。

这对我们意味着什么?多项式 NB 关心确实发生的多个特征的计数,而 Bernoulli NB 关心确实发生的单个特征的计数和发生的相同特征的计数。

这意味着,例如,Multinomial NB 将根据它找到的多个关键字的计数对文档进行分类;而 Bernoulli NB 只能关注单个关键字,但也会计算该关键字在文档中没有出现的次数。

所以他们做的模型略有不同。如果您要担心离散的多个特征,则必须使用 Multinomial NB。但是,如果您只需要担心一个特征,那么您可以根据上述情况做出建模选择。