我正在使用文本语料库 [专业电子邮件] 进行一些分类,我已经完成了所有基本的预处理步骤(词干、删除停用词、标点符号、低频词、词长......),这给了我一个 F1 - 分数 = 0.6。
我想知道下一步可能是什么来改善我的结果,我想到了“堆叠”(使用多个分类器),也许会删除不同类别共有的单词(4 种不同类型的文本)[不确定这个解决方案]
编辑:
我尝试了 15 个不同的分类器,其中最好的一个是梯度提升(gbm),F1-score=0.6002159。特征是通过 Tf-Idf 的一个词袋(Document Term Matrix)提取的[我认为考虑文本的长度、标点符号或其他无关紧要] - [主要是专业电子邮件]