如何使用具有多项朴素贝叶斯的 TFIDF 向量?

数据挖掘 scikit-学习 朴素贝叶斯分类器 文本
2021-09-19 13:03:39

假设我们使用 TFIDF 变换将文档编码为连续值特征。

我们现在如何将其用作朴素贝叶斯分类器的输入?

Bernoulli naive-bayes 不存在了,因为我们的特征不再是二元的了。
似乎我们也不能使用多项式朴素贝叶斯,因为这些值是连续的而不是分类的。

作为替代方案,是否适合使用高斯朴素贝叶斯?在高斯分布假设下,TFIDF 向量是否可能保持良好状态?

MultionomialNB 的 sci-kit learn 文档建议如下:

多项式朴素贝叶斯分类器适用于具有离散特征的分类(例如,用于文本分类的字数)。多项分布通常需要整数特征计数。但是,在实践中,诸如 tf-idf 之类的小数计数也可能起作用。

MultinomialNB 是不是根本不可能使用小数值?
据我了解,似然函数本身假设我们正在处理离散计数:

(来自维基百科):

p(xCk)=(ixi)!ixi!ipkixi

TFIDF 值如何使用这个公式,因为 xi 值都必须是离散计数吗?

1个回答

在预测最可能的类别时,阶乘项存在于每个类别的概率计算中,因此它们在计算中基本上可以忽略不计。这留下了提高到分数幂的单词概率,这些概率很容易计算。有关更详细的说明,请参阅本文:http ://www.cs.waikato.ac.nz/ml/publications/2004/kibriya_et_al_cr.pdf 。