机器算法验证 - 在 R 中使用 pam 时选择簇数的算法？ - 吾爱随笔录

机器算法验证 r 聚类模型选择

2022-03-27 18:06:05

我正在使用 pam 命令（来自 {cluster} 包）对数据集进行聚类，并且我希望决定要使用的聚类数量。

为此，我能够在 R 中实现 The_Elbow_Method（参见 wiki）。但这并没有为我提供任何可靠的决策标准（例如 AIC ）。

我来自看起来很有希望的 {clValid} 包，但我想知道是否有任何其他 R 解决方案（你知道）来选择 pam 的集群数量？

如果有人想展示示例，这里有一些虚拟代码：

data(iris)
head(iris)
require(cluster)
pam(iris[,1:4], 3)

3个回答

fpc包提供了一些聚类统计信息。如果您正在寻找特别的信息标准，该cluster.stats方法会提供基于信息的距离。对于基于聚类的混合模型，BIC 可用。

您可能会发现类似问题的答案很有用。我也使用过 clValid，但我记得，它相当慢（至少对于相对较大的数据集）。

其它你可能感兴趣的问题