衡量列表/集群内的多样性

数据挖掘 聚类 相似 方差 数据库扫描
2022-02-16 01:39:12

我有一个大约 53000 点的数据集。它基于两组不相关的属性被聚类了两次。对于第一个聚类(聚类 1),我使用了 DBScan,它最终得到了大约 700 个聚类,其中 30000 个点被标记为噪声。然后,在另一组属性上,我使用 kmeans 对它们进行聚类,从而产生 5 个不同的属性(聚类 2)。

但是,我有一种感觉,这两组属性毕竟可能有一些关系。因此,我想根据每个聚类 1 的聚类中聚类 2 的聚类成员资格来衡量这些点的可变性。我没有很强的数学背景,我尝试简单地计算每个聚类 1 组内的 SD,但这不起作用,因为集群标签有影响(集群 0 中 50% 和集群 1 中 50% 的组与集群 0 中 50% 和集群 2 中 50% 的组的结果不同)

不幸的是我不能分享我的数据,但我已经附上了一个截图,我希望能澄清我的意思。

在此处输入图像描述

0个回答
没有发现任何回复~