使用不平衡的数据和组进行聚类

数据挖掘 聚类 不平衡
2022-02-16 19:07:36

我有一个关于识别高度相关项目集群的问题。我最初专注于构建模型和功能,使相似的数据项彼此靠近。主要挑战是我有一个数据不平衡的情况,如下:

  • 数以千万计的项目是随机的,不一定相关。
  • 数百个项目集群(由 10-1000 个元素组成)存在*或可能出现。*对于现有的,我确实有部分基本事实。
  • 集群在大小和属性上非常不同。

我想返回已识别的集群以及每个集群中的元素F1应该是一个很好的衡量标准。

为了向前推进,我可以考虑基于阈值的层次聚类。还有其他技术需要考虑吗?

1个回答

由于您有部分基本事实(假设所有集群),我建议您遵循从图像分割中的区域增长得出的创意

由于您的集群的点数因此密度不平衡,它们可能是由本地使用 DBSCAN 捕获的。使用不同的参数运行 DBSCAN 并评估将您的真实数据捕获到正确的集群中。在您的真实评估中给出最佳结果的分区将是您的最终聚类。