联合空间聚类:如何强制聚类最少包含来自所有数据集的数据点

数据挖掘 聚类
2022-02-25 08:46:59

我想联合聚类来自不同数据集的数据点(50 个数据集,每个数据集大约 2000 个点)。然后我想提取与属于不同集群的数据点相关的信息,以比较数据集的各个方面。

现在我的问题是,如果我只是将来自不同数据集的数据点放入相同的特征空间,那么太少的集群包含同时来自所有数据集的数据点,因此过滤后我剩下的集群太少(我尝试使用 kmeans和类似的方法)。

我的问题是:在强加给定集群应包含来自所有数据集的点的条件的同时,联合聚类我的点的最佳方法是什么?理想的解决方案还允许一些异常值不满足此条件。我能想到的第一件事是定义点和集群之间的距离,这些距离取决于集群中是否已经存在属于同一数据集的点?不过似乎太牵强了。

我会很感激任何想法,在此先感谢!

编辑:我的六个特征中的三个是空间坐标,理想情况下,我还希望集群在给定的数据集中连接。

1个回答

我不明白强加一个条件的目的,该条件要求任何集群至少包含每个数据集的一些(甚至是 1 个)点,但同时找到一个解决方案,该解决方案也允许该条件被异常值打破(我假设这些是特定的集群异常值或数据集异常值?)。

您是否考虑过实施重叠聚类算法?您没有获得传统单一成员资格的全部独特性,但您可能会更好地将您的数据与达到所需条件的算法相匹配。事后可能需要对数据进行一些探索并测试集群成员资格。