数据挖掘 - 使用不平衡的数据和组进行聚类 - 吾爱随笔录 - 问答

使用不平衡的数据和组进行聚类

数据挖掘聚类不平衡

2022-02-16 19:07:36

我有一个关于识别高度相关项目集群的问题。我最初专注于构建模型和功能，使相似的数据项彼此靠近。主要挑战是我有一个数据不平衡的情况，如下：

数以千万计的项目是随机的，不一定相关。
数百个项目集群（由 10-1000 个元素组成）存在*或可能出现。*对于现有的，我确实有部分基本事实。
集群在大小和属性上非常不同。

我想返回已识别的集群以及每个集群中的元素。F1应该是一个很好的衡量标准。

为了向前推进，我可以考虑基于阈值的层次聚类。还有其他技术需要考虑吗？

1个回答

由于您有部分基本事实（假设所有集群），我建议您遵循从图像分割中的区域增长得出的创意。

由于您的集群的点数因此密度不平衡，它们可能是由本地使用 DBSCAN 捕获的。使用不同的参数运行 DBSCAN 并评估将您的真实数据捕获到正确的集群中。在您的真实评估中给出最佳结果的分区将是您的最终聚类。

其它你可能感兴趣的问题

上一篇使用 Scikit Learn Grid Search 时，为什么我的 train 和 cv 分数很高，但我的测试分数却低很多？下一篇使用 GPU 进行数据验证的 Keras OOM