我手头有一个聚类任务。我拥有的数据仅包含分类变量。因此,k 模式似乎是最好的选择。但我不确定同样需要哪些数据预处理步骤?
我现在正在做的事情如下:
标注具有序数值的编码特征。
一个热编码其他。
这就是我在数据预处理步骤中所做的一切。完成上述步骤后,我的特征空间从原来的 4 增加到 50。我得到 17 个集群作为剪影得分 0.60 的最佳集群数。
另外,我认为做主成分分析(PCA)来减少尺寸和特征缩放在这里没有意义,好像我这样做,我还不如使用 K-means。运行 PCA 然后将 k-means 用于分类变量会是一个好的决定吗?