我正在进行文本挖掘以从文档中提取主题。我从潜在狄利克雷分配 (LDA) 开始,它效果很好,但后来我遇到了带有 K-Means 聚类的 TF-IDF,它对我来说效果更好。我想评估两者,但我找不到任何有用的验证或指标来比较这两者。如何将这两者与有用的指标进行比较?
如何比较 LDA 和 TF-IDF?
数据挖掘
Python
文本挖掘
k-均值
评估
低密度脂蛋白
2022-02-17 08:39:20
1个回答
如果你有文档(它们的主题)的真实值,你所要做的就是选择一个指标并比较结果。对于您的分类问题,常见的指标是 f1_score;参考:http ://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html
其它你可能感兴趣的问题