我应该为 k-means 模型分离数据吗?

数据挖掘 机器学习 k-均值
2022-03-15 07:38:09

我想对一些用户评论进行聚类,我正在使用 k-means 进行此操作。在我的数据集中,我有英语和德语评论。如果我不将它们分开,这是在操纵集群结果吗?或者我应该对每种语言进行 k-means 预测?

2个回答

是的,您绝对应该将这两个分开。在计算 TF-TDF matix 时,由于语言的不同,它会给同一实体的对象赋予不同的术语。影响您的聚类结果。

使用不同语言的文本文档,您将有不同的矢量表示,除非您之前翻译了这些文档。例如,housemaison将与不同的功能相关联。因此,聚类算法不会将它们识别为同义词。

您应该尝试对您的评论进行以前的翻译。根据您使用的算法,该翻译的质量将影响聚类算法。

如果您告诉我您在集群中执行的步骤,我可以为您提供更好的帮助。