从短语匹配创建 NLP 特征

数据挖掘 Python nlp 特征构造
2022-02-18 18:59:33

我正在构建一个模型来对电子邮件内容进行分类,以决定电子邮件是否应该导致 JIRA 票证被“提出”或“未提出”。我遇到的问题是数据高度不平衡,只有大约 11% 被归类为“已提高”。到目前为止,随机森林分类器提供了最高水平的准确度,但真正的正率/召回率约为 40%,我似乎无法在此基础上增加。我已经获得了一个短语列表,这些短语应该包含在电子邮件内容中,那么很可能需要提高票证。正在寻找一些关于基于短语匹配创建新功能的最佳方法的提示?有没有人对这样做的最佳方法有任何经验?

1个回答

不平衡的问题在于,优化器可以通过声明所有内容“未提高”来获得非常好的分数。您需要通过消除这种激励来欺骗您的训练数据。我建议在课程之间平衡 50/50 的训练集。您的评估集仍然可以具有代表性,这将使您了解它是如何概括的。