数据挖掘 - 分类变量的 PCA 和 k 均值？ - 吾爱随笔录

我手头有一个聚类任务。我拥有的数据仅包含分类变量。因此，k 模式似乎是最好的选择。但我不确定同样需要哪些数据预处理步骤？

我现在正在做的事情如下：

这就是我在数据预处理步骤中所做的一切。完成上述步骤后，我的特征空间从原来的 4 增加到 50。我得到 17 个集群作为剪影得分 0.60 的最佳集群数。

另外，我认为做主成分分析（PCA）来减少尺寸和特征缩放在这里没有意义，好像我这样做，我还不如使用 K-means。运行 PCA 然后将 k-means 用于分类变量会是一个好的决定吗？