假设我们使用 TFIDF 变换将文档编码为连续值特征。
我们现在如何将其用作朴素贝叶斯分类器的输入?
Bernoulli naive-bayes 不存在了,因为我们的特征不再是二元的了。
似乎我们也不能使用多项式朴素贝叶斯,因为这些值是连续的而不是分类的。
作为替代方案,是否适合使用高斯朴素贝叶斯?在高斯分布假设下,TFIDF 向量是否可能保持良好状态?
MultionomialNB 的 sci-kit learn 文档建议如下:
多项式朴素贝叶斯分类器适用于具有离散特征的分类(例如,用于文本分类的字数)。多项分布通常需要整数特征计数。但是,在实践中,诸如 tf-idf 之类的小数计数也可能起作用。
MultinomialNB 是不是根本不可能使用小数值?
据我了解,似然函数本身假设我们正在处理离散计数:
(来自维基百科):
TFIDF 值如何使用这个公式,因为 值都必须是离散计数吗?