我想联合聚类来自不同数据集的数据点(50 个数据集,每个数据集大约 2000 个点)。然后我想提取与属于不同集群的数据点相关的信息,以比较数据集的各个方面。
现在我的问题是,如果我只是将来自不同数据集的数据点放入相同的特征空间,那么太少的集群包含同时来自所有数据集的数据点,因此过滤后我剩下的集群太少(我尝试使用 kmeans和类似的方法)。
我的问题是:在强加给定集群应包含来自所有数据集的点的条件的同时,联合聚类我的点的最佳方法是什么?理想的解决方案还允许一些异常值不满足此条件。我能想到的第一件事是定义点和集群之间的距离,这些距离取决于集群中是否已经存在属于同一数据集的点?不过似乎太牵强了。
我会很感激任何想法,在此先感谢!
编辑:我的六个特征中的三个是空间坐标,理想情况下,我还希望集群在给定的数据集中连接。