朴素贝叶斯实现:为什么拉普拉斯平滑不同于理论?

数据挖掘 机器学习 分类 统计数据 朴素贝叶斯分类器
2021-10-09 18:37:29

让我们有一个朴素贝叶斯伯努利分类器 nC 班级和 nF 特征。

根据这里这里的公式以及我能看到的几乎所有理论书籍,拉普拉斯平滑意味着我们取

(X=X|C=C)=#{X=X,C=C}+α#{C=C}+nFα

但在sklearn本书的实现中,公式实际上是

(X=X|C=C)=#{X=X,C=C}+α#{C=C}+2α

为什么将特征数量视为两个?有理论上的原因吗?

1个回答

我认为答案只是在伯努利模型的情况下,您的变量是二进制变量,这意味着它们唯一可以取的值是 0 或 1。因此,“特征数量”在文本分类的case限制为2。