K-modes 聚类:估计哪些特征对聚类影响最大?

数据挖掘 聚类 无监督学习
2022-03-06 21:42:40

我有完全分类的数据(来自用户的调查结果),所以我使用了 k-modes 聚类来更好地了解我的用户。

我根本不是聚类方法的专家。有没有一种已知的方法来估计一个特征(或特征组合)在决定用户属于哪个集群时的重要性?

4个回答

它归结为计数。

计算哪个特征值具有最高的预测特定集群的概率。这是贝叶斯公式的直接应用。

有一种惊人的技术可用于找出不同特征对模型的影响,称为置换重要性。

要了解 PermuationImportance 的工作原理,请在 stackoverflow 上查看我的这个答案。

要查看具有良好解释代码的工作示例,请查看笔记本。

除此之外,如果您想学习如何手动分析 K-Means 聚类算法,请阅读本文

怎么样:先做一些手动预处理。

如果您有许多分类变量(对于一项调查来说不能那么多。),对于每个

  • 通过降低频率来排序答案,
  • 然后将它们归为小于 10 个主要响应,并将第 10 个分配给“其他”。

对每个分类变量执行此操作。有时最好只分配 3 个主要响应加上“其他”。然后进行一次热编码(=分类到使用虚拟变量的数值)然后进行简单的 KMeans 聚类并自己解释生成的聚类以获得合理性。

如果您的调查中只有自由文本回复,或者有很多 NA,您必须首先进行更多的预处理。

阅读有关 PCA(“主成分分析”)的信息,并且在实施时必须以类似的规模标准化数据。