我对一维数据集执行聚类,我需要一种方法来自动确定最佳聚类数. 聚类的观察数量很少(通常在 10-13 左右)。我想我需要检查两个目标之一(或同时两个目标)的优化,看看什么最有效:
以实现具有最低集群内方差的分区。直观地说,我会选择平均集群内方差之类的东西,但我实际上可以接受由单个观察形成一些集群的情况(它实际上对于异常值是可取的,这就是为什么我检查相对较高数量的集群)。并且平均集群内方差总是有利于较少数量的集群。
以实现聚类内成对观察之间距离最相似的分区。例如,如果我有对象在我的集群中,我想拥有在哪里是欧几里得距离和被排序。
我研究了scikit-learn选项,但它们似乎都不适合我的情况。