假设您已经在 2 个类“Ham”和“Spam”(即它对电子邮件进行分类)上训练了 Naive Bayes 分类器。为简单起见,我们假设先验概率为 50/50。
现在假设您有一封电子邮件,您的分类器将其评为“Ham”,例如和(w1,w2,...,wn)P(Ham|w1,w2,...wn)=.90
P(Spam|w1,w2,..wn)=.10
到现在为止还挺好。
现在假设您有另一封电子邮件,它与上述电子邮件完全相同,只是其中有一个单词未包含在词汇表中。因此,由于该词的计数为 0,因此(w1,w2,...,wn,wn+1)P(Ham|wn+1)=P(Spam|wn+1)=0
突然,和P(Ham|w1,w2,...wn,wn+1)=P(Ham|w1,w2,...wn)∗P(Ham|wn+1)=0
P(Spam|w1,w2,..wn,wn+1)=P(Spam|w1,w2,...wn)∗P(Spam|wn+1)=0
尽管第一封电子邮件被强烈归类为一类,但由于最后一个单词的概率为零,这第二封电子邮件可能被分类不同。
拉普拉斯平滑通过为两个类赋予最后一个词一个小的非零概率来解决这个问题,这样后验概率就不会突然下降到零。