在 R 中使用 pam 时选择簇数的算法?

机器算法验证 r 聚类 模型选择
2022-03-27 18:06:05

我正在使用 pam 命令(来自 {cluster} 包)对数据集进行聚类,并且我希望决定要使用的聚类数量。

为此,我能够在 R 中实现 The_Elbow_Method(参见 wiki)。但这并没有为我提供任何可靠的决策标准(例如 AIC

我来自看起来很有希望的 {clValid} 包,但我想知道是否有任何其他 R 解决方案(你知道)来选择 pam 的集群数量?

如果有人想展示示例,这里有一些虚拟代码:

data(iris)
head(iris)
require(cluster)
pam(iris[,1:4], 3)
3个回答

fpc提供了一些聚类统计信息。如果您正在寻找特别的信息标准,该cluster.stats方法会提供基于信息的距离。对于基于聚类的混合模型,BIC 可用。

您可能会发现类似问题的答案很有用。我也使用过 clValid,但我记得,它相当慢(至少对于相对较大的数据集)。

剪影