选择集群数量以使获得的集群是同质的,什么是好的索引?

数据挖掘 聚类 无监督学习
2022-03-03 19:56:49

我对一维数据集执行聚类,我需要一种方法来自动确定最佳聚类数k{2,3,4,5,6}. 聚类的观察数量很少(通常在 10-13 左右)。我想我需要检查两个目标之一(或同时两个目标)的优化,看看什么最有效:

  • 以实现具有最低集群内方差的分区。直观地说,我会选择平均集群内方差之类的东西,但我实际上可以接受由单个观察形成一些集群的情况(它实际上对于异常值是可取的,这就是为什么我检查相对较高数量的集群)。并且平均集群内方差总是有利于较少数量的集群。

  • 以实现聚类内成对观察之间距离最相似的分区。例如,如果我有对象a,b,c,d在我的集群中,我想拥有d(a,b)d(b,c)d(c,d)在哪里d是欧几里得距离和a,b,c,d被排序。

我研究了scikit-learn选项,但它们似乎都不适合我的情况。

1个回答

您的问题不适合机器学习。机器学习不会对聚类本身(参数)或自动聚类数(超参数)给出可靠的答案。示例数太少(10-13),示例数相对于组数(2-5)也太少。