我正在与混淆矩阵及其输出作斗争。我以为要正确执行所有步骤,但不幸的是,似乎有些事情进展不顺利。
我有一个自己构建和标记的数据集。它显示了类的不平衡,所以我决定应用欠采样和过采样,查看许多论文和网络上的 F1-score 和 Recall。步骤是:
- 在训练和测试中拆分数据 (80/20)
- 仅在训练集上应用重采样
- 应用预处理算法(BoW,TF-IDF,...)
- 使用不同的分类器得到结果
- 使用混淆矩阵(或 ROC)查看性能
我尝试了不同的特征:在一个特征工程较少的数据集中,即仅使用来自文本的特征,我得到的 F1 分数的最大值等于 68%。有了更多我认为对改进模型很重要的功能,我得到了最大 64%,考虑到这个问题(用于垃圾邮件检测的电子邮件分类),这很奇怪。理论上,如果我只从文本中提取特征,我会得到更好的分数,而不是从电子邮件地址中提取特征。如果您有任何提示和建议,我想请教您,因为我认为这是不可能的,因为在第二种情况下,预期结果应该更高,当我还考虑来自电子邮件地址的信息时(点数, 后缀, 注册日期,...)。
我正在考虑模型构建的过度拟合问题或其他一些问题。如果您能告诉我您对此的想法,我将不胜感激。
谢谢你的帮助。