提高文本语料库的 F1 分数

数据挖掘 机器学习 文本挖掘
2022-02-14 09:12:29

我正在使用文本语料库 [专业电子邮件] 进行一些分类,我已经完成了所有基本的预处理步骤(词干、删除停用词、标点符号、低频词、词长......),这给了我一个 F1 - 分数 = 0.6。

我想知道下一步可能是什么来改善我的结果,我想到了“堆叠”(使用多个分类器),也许会删除不同类别共有的单词(4 种不同类型的文本)[不确定这个解决方案]

编辑:

我尝试了 15 个不同的分类器,其中最好的一个是梯度提升(gbm),F1-score=0.6002159。特征是通过 Tf-Idf 的一个词袋(Document Term Matrix)提取的[我认为考虑文本的长度、标点符号或其他无关紧要] - [主要是专业电子邮件]

2个回答

您是否尝试过不使用 Tf-Idf 加权?那么二元分析呢?

您还可以查看预处理,可能不删除低频词(tf idf 已经这样做了)。另一个想法是删除出现在您的语料库中的一个非常高频的词。

特征工程通常是提高性能的方法。

改善结果的另一种可能方法是通过监督特征选择。我可以推荐卡方特征选择逐步特征选择至于更完整的特征选择调查,您可以参考Guyon、Isabelle 和 André Elisseeff。“变量和特征选择简介。” 机器学习研究杂志 3.Mar (2003): 1157-1182。