机器算法验证 - 用于文本分类的权重因子 - 吾爱随笔录

我正在处理文本分类任务，我拥有 21,000 个用于训练的文档，以及（目前）7000 个用于测试的文档。我为训练语料库和测试语料库构建了 doc-term 矩阵，具有两个不同的权重因子，即TF（词频）或TF-IDF（词频-逆文档频率）。然后我使用带有高斯径向内核的 SVM 对文档进行分类。tf-idf 权重的 F1-measure 接近 0.8，而 tf 权重的性能较差，约为 0.7。因此，从逻辑上讲，我们将倾向于使用 tf-idf 加权。

但是，在增量上下文中会出现一个问题。也就是说，当我们必须不时对单个或几个新文档进行分类时（使用预训练模型）。不适合对单个文档使用 tf-idf 加权，因为 tf-idf 通常用于衡量文档集合中的单词重要性。

我应该妥协使用 tf 加权还是存在其他一些技巧？