我目前正在处理一个问题,我们的项目和电子邮件分别属于一个项目。
我的目标是为收到的电子邮件创建一个推荐系统,该系统显示电子邮件可能属于的项目。
项目的数量在不断增长,就像电子邮件的数量一样。这就是为什么我决定使用最近质心分类器的原因,因为新类的“训练”很容易(毕竟,只是计算属于质心的电子邮件的平均值),而且对我来说似乎很有希望。
我将 NCC 与词袋法结合使用,为此我正在通过 TF-IDF 计算单词的分数。
数据池实际上并不是最大的,这是我尝试使用像 NCC 这样不太复杂的模型的另一个原因。我只有 5000 封有用的电子邮件和大约 300 个项目。
问题是,当我计算到每个项目质心的距离时,某些质心在每种情况下都会获胜。对于几乎每封电子邮件,推荐的前 10 个质心始终相同。当我查看它们时,我注意到“最佳”质心只是不包含太多信息的质心,它们似乎只有很少的文本数据。而如果电子邮件显然没有太多文本,则错误率很低,因此距离也很短。
有什么办法可以解决这个问题吗?或者说 TF-IDF 和 NCC 不是很好的组合?