当使用朴素贝叶斯对文档进行分类时,如果出现重复项,您会乘以哪些概率?

数据挖掘 nlp 朴素贝叶斯分类器
2022-03-15 14:46:46

简而言之:对于朴素贝叶斯和文本分类,您是乘以文档中每个单词实例的概率,还是乘以该单词出现的概率?

更详细:问题是如何计算文档的朴素贝叶斯。我们有一个文本语料库,我们可以从中计算出具有单词类文档的频率。然后我们计算概率并选择最大化这个数字但是我不确定我们是在每个单词出现时乘以它的概率,还是如果它出现在文档中只乘一次?就像,如果文本是“ ”,那么估计的概率是还是CwP(w1|C)...P(wn|C)Cw1 w2 w1P(w1|C)2P(w2|C)P(w1|C)P(w2|C)

1个回答

您可以使用以下两种方法之一:

  • 只需计算您的语料库中的文档是否包含单词然后估计的可能性,正如您所描述的wP(w1|C)...P(wn|C)

  • 您可以计算您的语料库的每个文档中有多少个单词的实例,但是可能性的估计变得比您描述的要复杂一些;本质上,您需要使用多项分布:,其中是文档的数量,是每个文档的单词的计数,分母迭代项数在您的语料库中,是每个术语在每个文档中出现的次数,最后是P(w1|C=k)=i=1Nxitzik/s=1|V|i=1NxiszikNxitw1s|V|xiszik如果文档属于 k 类,则为 1,否则为 0,在分母中的两个分子中

希望简短的解释是有意义的,无论如何你在这里有一个非常完整和有用的参考(上面公式中的相同符号)。