这是我对伯努利和多项朴素贝叶斯之间区别的理解:
伯努利明确地对特征的存在/不存在进行建模,而多项式则没有。
- 有什么我想念的吗?
- 有人可以直观地解释为什么这种差异很重要吗?也许使用一个你显然会使用一个而不是另一个的例子
在维基百科页面上,他们说:
请注意,具有伯努利事件模型的朴素贝叶斯分类器与频率计数截断为 1 的多项式 NB 分类器不同。
这是为什么?
这是我对伯努利和多项朴素贝叶斯之间区别的理解:
伯努利明确地对特征的存在/不存在进行建模,而多项式则没有。
在维基百科页面上,他们说:
请注意,具有伯努利事件模型的朴素贝叶斯分类器与频率计数截断为 1 的多项式 NB 分类器不同。
这是为什么?
伯努利对特征的存在/不存在进行建模。多项式对特征的计数进行建模。这是一个简明的解释。
维基百科警告说
请注意,具有伯努利事件模型的朴素贝叶斯分类器与频率计数截断为 1 的多项式 NB 分类器不同。
为了理解为什么,我们应该注意到,正如这个页面很好地解释的那样,
二项分布将伯努利分布推广到试验次数,而多努利分布将其推广到结果数量,即掷骰子而不是掷硬币。
这对我们意味着什么?多项式 NB 关心确实发生的多个特征的计数,而 Bernoulli NB 关心确实发生的单个特征的计数和未发生的相同特征的计数。
这意味着,例如,Multinomial NB 将根据它找到的多个关键字的计数对文档进行分类;而 Bernoulli NB 只能关注单个关键字,但也会计算该关键字在文档中没有出现的次数。
所以他们做的模型略有不同。如果您要担心离散的多个特征,则必须使用 Multinomial NB。但是,如果您只需要担心一个特征,那么您可以根据上述情况做出建模选择。