我正在处理文本分类任务,我拥有 21,000 个用于训练的文档,以及(目前)7000 个用于测试的文档。我为训练语料库和测试语料库构建了 doc-term 矩阵,具有两个不同的权重因子,即TF(词频)或TF-IDF(词频-逆文档频率)。然后我使用带有高斯径向内核的 SVM 对文档进行分类。tf-idf 权重的 F1-measure 接近 0.8,而 tf 权重的性能较差,约为 0.7。因此,从逻辑上讲,我们将倾向于使用 tf-idf 加权。
但是,在增量上下文中会出现一个问题。也就是说,当我们必须不时对单个或几个新文档进行分类时(使用预训练模型)。不适合对单个文档使用 tf-idf 加权,因为 tf-idf 通常用于衡量文档集合中的单词重要性。
我应该妥协使用 tf 加权还是存在其他一些技巧?