通过对一组 1,000,000 个文本文档进行聚类,我已经确定了 100 个聚类。我对其中的 10 个集群特别感兴趣。想象一下,我现在有一组额外的 100,000 个文档(不是最初的 100 万个文档的一部分)。我想知道是否有一种方法可以有效地检查 100K 新文档中的每一个是否属于 10 个集群中的一个。
识别与特定集群相似的文档
数据挖掘
nlp
聚类
相似
2022-02-17 00:36:31
1个回答
- 第一个想法:像往常一样去。计算每个新文档到 100 个簇的质心的距离,看看属于哪个簇(最小距离获胜)。
- 第二个想法:您已经知道哪些集群是您的目标。为这 10 个分配一个标签(例如 1),为其余 90 个分配另一个标签(0)。然后训练一个分类器并尝试预测新文档的标签。(监督学习中的标记过程通常基于专家注释,即标记中可接受的准确性。但是使用这种方法,您会失去该准确性,因此期望并非所有标签都完美无缺,因为聚类算法是盲目地这样做)