数据挖掘 - 使用最近质心分类器和词袋法处理低信息质心 - 吾爱随笔录

我目前正在处理一个问题，我们的项目和电子邮件分别属于一个项目。

我的目标是为收到的电子邮件创建一个推荐系统，该系统显示电子邮件可能属于的项目。

项目的数量在不断增长，就像电子邮件的数量一样。这就是为什么我决定使用最近质心分类器的原因，因为新类的“训练”很容易（毕竟，只是计算属于质心的电子邮件的平均值），而且对我来说似乎很有希望。

我将 NCC 与词袋法结合使用，为此我正在通过 TF-IDF 计算单词的分数。

数据池实际上并不是最大的，这是我尝试使用像 NCC 这样不太复杂的模型的另一个原因。我只有 5000 封有用的电子邮件和大约 300 个项目。

问题是，当我计算到每个项目质心的距离时，某些质心在每种情况下都会获胜。对于几乎每封电子邮件，推荐的前 10 个质心始终相同。当我查看它们时，我注意到“最佳”质心只是不包含太多信息的质心，它们似乎只有很少的文本数据。而如果电子邮件显然没有太多文本，则错误率很低，因此距离也很短。

有什么办法可以解决这个问题吗？或者说 TF-IDF 和 NCC 不是很好的组合？