朴素关于哪些朴素贝叶斯的文章

数据挖掘 机器学习 算法 预测建模
2021-09-27 18:30:11

使用 Wikipedia 上的朴素贝叶斯垃圾邮件过滤文章 ( https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering )

在此处输入图像描述

在此处输入图像描述

它是二元多项式方程还是伯努利形式或其他形式?

在这篇 2006 年的论文中,它讨论了有许多朴素贝叶斯算法: 使用朴素贝叶斯的垃圾邮件过滤——哪些朴素贝叶斯? http://www.aueb.gr/users/ion/docs/ceas2006_paper.pdf

该论文指出,二元多项式 NB 表现最佳。

如果它不是多项式的,需要进行哪些更改才能使其成为多项式?

2个回答

首先,是的,有不同的朴素贝叶斯算法。但它们都基于相同的原理,即假设特征是独立的贝叶斯定理。

以下是关于何时使用 which 进行垃圾邮件检测(或一般的文档分类)的简短指南:

  • 伯努利朴素贝叶斯

    每封电子邮件都表示为一个二进制向量,在这种情况下,电子邮件中是否存在某个词与不存在一样重要。例如,“伟哥”在电子邮件中的事实可能意味着它是“垃圾邮件”,而它不是可能意味着它“不是垃圾邮件”

  • 具有布尔特征的多项朴素贝叶斯

    每封电子邮件都表示为一个二进制向量,在这种情况下,电子邮件中是否存在单词比不存在更重要。例如,如果“奶奶”在电子邮件中,可能意味着它“不是垃圾邮件”,但如果它不在电子邮件中,则不一定意味着它是“垃圾邮件”。

  • 具有项频率的多项朴素贝叶斯

    每封电子邮件由每个单词出现的次数表示。

  • 高斯朴素贝叶斯

    这处理连续值,因此此处不适用。

您发布的两个屏幕截图都与任何特定的概率计算方法无关。因此,他们将计算朴素贝叶斯的公式保持得很笼统,而没有赋予该符号任何特定的含义。

为了使它们成为“任何东西”,无论是伯努利的一些变体、多项式还是等等,都需要定义 P(...)ps 被定义和评估。

既然你想使用这篇论文,你可以简单地“插入”公式来评估他们在论文中的定义。

例如,对于具有拉普拉斯先验的多元伯努利朴素贝叶斯,您将插入:

在此处输入图像描述

同样,对于多项朴素贝叶斯(无论是使用 TF 还是二元属性),您将插入:

在此处输入图像描述

至于第二个公式,p=11+eη,它只是评估一般公式朴素贝叶斯后验计算的一种计算更准确的方法p=i=1Npii=1Npi+i=1N(1pi). 这是因为在对数空间中对许多操作数执行求和运算通常可能比在通常空间中执行乘法运算更准确,这是因为浮点运算在计算机中实现的方式。