使用最近质心分类器和词袋法处理低信息质心

数据挖掘 机器学习 分类 tfidf
2022-03-12 17:52:45

我目前正在处理一个问题,我们的项目和电子邮件分别属于一个项目。

我的目标是为收到的电子邮件创建一个推荐系统,该系统显示电子邮件可能属于的项目。

项目的数量在不断增长,就像电子邮件的数量一样。这就是为什么我决定使用最近质心分类器的原因,因为新类的“训练”很容易(毕竟,只是计算属于质心的电子邮件的平均值),而且对我来说似乎很有希望。

我将 NCC 与词袋法结合使用,为此我正在通过 TF-IDF 计算单词的分数。

数据池实际上并不是最大的,这是我尝试使用像 NCC 这样不太复杂的模型的另一个原因。我只有 5000 封有用的电子邮件和大约 300 个项目。

问题是,当我计算到每个项目质心的距离时,某些质心在每种情况下都会获胜。对于几乎每封电子邮件,推荐的前 10 个质心始终相同。当我查看它们时,我注意到“最佳”质心只是不包含太多信息的质心,它们似乎只有很少的文本数据。而如果电子邮件显然没有太多文本,则错误率很低,因此距离也很短。

有什么办法可以解决这个问题吗?或者说 TF-IDF 和 NCC 不是很好的组合?

1个回答

这是不同长度文本之间距离/相似性度量的标准问题。我不知道解决它的任何标准方法,但在您的情况下,我会尝试从训练集中删除任何短于特定长度的电子邮件(您可以尝试不同的阈值)。这有望迫使质心更具体,目标是它们都不能轻易吸引所有实例。