合并两组集群

数据挖掘 机器学习 数据挖掘 无监督学习 主题模型 狄利克雷
2021-10-01 02:31:49

我从两组不同的报纸文章中获得了两组主题。

换句话说,Cluster_1 =X1,X2,...,Xn包括'X'报纸集的主要主题和Cluster_2 =是的1,是的2,...,是的n包括“Y”新闻纸集的主要主题。

现在,我想通过考虑下面示例中给出的集群属性来查找两组相似/相关的集群。

Example 1,
**X1 in Cluster_1** is mostly similar/related to **Y2 in Cluster_2**
**X2 in Cluster_1** is mostly similar/related to **Yn in cluster_2**
and so on.

Example 2:
News about Yet in Cluster_1 is mostly similar/related to News about Science in Cluster_2
News about Floods in Cluster_1 is mostly similar/related to News about Rains in Cluster_2

因为,我正在处理两组单独的集群,我可以使用什么合适的测量/方法来连接两组不同的集群?

1个回答

要比较两个 LDA 主题,您实际上是在尝试计算两个概率分布之间的距离。

在这些情况下常用的一种测量方法是Hellinger Distance找到最接近的匹配项X1 在主题中 是的,您将计算之间的 Hellinger 距离 X1 并且每个 是的 题目,然后取最低的一个。

请记住,在这种意义上,无法保证“最相似”的主题在主观上是远程相似的。