我有一个关于识别高度相关项目集群的问题。我最初专注于构建模型和功能,使相似的数据项彼此靠近。主要挑战是我有一个数据不平衡的情况,如下:
- 数以千万计的项目是随机的,不一定相关。
- 数百个项目集群(由 10-1000 个元素组成)存在*或可能出现。*对于现有的,我确实有部分基本事实。
- 集群在大小和属性上非常不同。
我想返回已识别的集群以及每个集群中的元素。F1应该是一个很好的衡量标准。
为了向前推进,我可以考虑基于阈值的层次聚类。还有其他技术需要考虑吗?
我有一个关于识别高度相关项目集群的问题。我最初专注于构建模型和功能,使相似的数据项彼此靠近。主要挑战是我有一个数据不平衡的情况,如下:
我想返回已识别的集群以及每个集群中的元素。F1应该是一个很好的衡量标准。
为了向前推进,我可以考虑基于阈值的层次聚类。还有其他技术需要考虑吗?
由于您有部分基本事实(假设所有集群),我建议您遵循从图像分割中的区域增长得出的创意。
由于您的集群的点数因此密度不平衡,它们可能是由本地使用 DBSCAN 捕获的。使用不同的参数运行 DBSCAN 并评估将您的真实数据捕获到正确的集群中。在您的真实评估中给出最佳结果的分区将是您的最终聚类。