我正在研究一个有 10 个标签的多标签文本分类问题。数据集很小,总共有 +- 7000 个项目和 +-7500 个标签。我正在使用 python sci-kit learn,结果出现了一些奇怪的东西。作为基线,我开始使用 countvectorizer,实际上计划使用我认为效果更好的 tfidf 矢量化器。但它没有.. 使用 countvectorizer 我得到了高 0.1 的 f1score 的性能。(0.76 对 0.65)
我无法理解为什么会这样?有10个类别,一个叫做杂项。尤其是这个使用 tfidf 的性能要低得多。
有谁知道 tfidf 何时或为什么表现比 count 差?我需要将其正式化为我的论文。