数据挖掘 - 提高文本语料库的 F1 分数 - 吾爱随笔录

我正在使用文本语料库 [专业电子邮件] 进行一些分类，我已经完成了所有基本的预处理步骤（词干、删除停用词、标点符号、低频词、词长......），这给了我一个 F1 - 分数 = 0.6。

我想知道下一步可能是什么来改善我的结果，我想到了“堆叠”（使用多个分类器），也许会删除不同类别共有的单词（4 种不同类型的文本）[不确定这个解决方案]

编辑：

我尝试了 15 个不同的分类器，其中最好的一个是梯度提升（gbm），F1-score=0.6002159。特征是通过 Tf-Idf 的一个词袋（Document Term Matrix）提取的[我认为考虑文本的长度、标点符号或其他无关紧要] - [主要是专业电子邮件]