我正在寻找对一个小型数据集(4 个区间变量和一个三因素分类变量的 64 个观察值)进行聚类。现在,我对聚类分析很陌生,但我知道自从层次聚类或 k-means 是唯一可用的选项以来,已经取得了相当大的进步。特别是,似乎可以使用基于模型的聚类的新方法,正如chl 所指出的那样,可以使用“拟合优度指数来决定聚类或类的数量”。
但是,基于模型的聚类的标准 R 包mclust
显然不适合具有混合数据类型的模型。该fpc
模型可以,但无法拟合模型,我怀疑是因为连续变量的非高斯性质。我应该继续使用基于模型的方法吗?如果可能,我想继续使用 R。在我看来,我有几个选择:
- 将三级分类变量转换为两个虚拟变量并使用
mclust
. 我不确定这是否会影响结果,但如果不是,这是我的首选。 - 以某种方式转换连续变量并使用
fpc
包。 - 使用我还没有遇到的其他 R 包。
- 使用 Gower 的度量创建一个相异矩阵,并使用传统的分层或重定位集群技术。
stats.se hivemind 在这里有什么建议吗?