我正在制作我自己的 Naive Bayes bag o' words 模型的原型,并且我有一个关于计算特征概率的问题。
假设我有两个类,我将只使用垃圾邮件和非垃圾邮件,因为这是每个人都使用的。让我们以“伟哥”这个词为例。我的训练集中有 10 封电子邮件,5 封垃圾邮件和 5 封非垃圾邮件。“伟哥”出现在所有 5 个垃圾邮件文档中。在其中一份培训文档中,它出现了 3 次(这是我的问题所在),因此总共出现了 7 次垃圾邮件。在非垃圾邮件训练集中,它出现了 1 次。
如果我想估计 p(viagra | spam) 是不是很简单:
p(viagra | spam) = 5 个垃圾邮件文档包含伟哥 / 5 个垃圾邮件文档总数 = 1
换句话说,一份文件提到伟哥 3 次而不是一次这一事实真的不重要吗?
编辑:这是一篇博文,作者使用了我刚刚提出的方法: http ://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
这是一篇博文,作者说:p(viagra | spam) = 7 次伟哥垃圾邮件提及 / 8 次总提及 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-bayes-classifiers-to-document-classification-problems
然后下面的答案之一说它应该是:p(伟哥|垃圾邮件)= 7 伟哥在垃圾邮件中提到/垃圾邮件中的总字数
任何人都可以链接到对此发表意见的来源吗?