我有完全分类的数据(来自用户的调查结果),所以我使用了 k-modes 聚类来更好地了解我的用户。
我根本不是聚类方法的专家。有没有一种已知的方法来估计一个特征(或特征组合)在决定用户属于哪个集群时的重要性?
我有完全分类的数据(来自用户的调查结果),所以我使用了 k-modes 聚类来更好地了解我的用户。
我根本不是聚类方法的专家。有没有一种已知的方法来估计一个特征(或特征组合)在决定用户属于哪个集群时的重要性?
它归结为计数。
计算哪个特征值具有最高的预测特定集群的概率。这是贝叶斯公式的直接应用。
怎么样:先做一些手动预处理。
如果您有许多分类变量(对于一项调查来说不能那么多。),对于每个
对每个分类变量执行此操作。有时最好只分配 3 个主要响应加上“其他”。然后进行一次热编码(=分类到使用虚拟变量的数值)然后进行简单的 KMeans 聚类并自己解释生成的聚类以获得合理性。
如果您的调查中只有自由文本回复,或者有很多 NA,您必须首先进行更多的预处理。
阅读有关 PCA(“主成分分析”)的信息,并且在实施时必须以类似的规模标准化数据。