分类变量的 PCA 和 k 均值?

数据挖掘 数据挖掘 聚类 无监督学习 k-均值 分类数据
2022-02-27 22:31:52

我手头有一个聚类任务。我拥有的数据仅包含分类变量。因此,k 模式似乎是最好的选择。但我不确定同样需要哪些数据预处理步骤?

我现在正在做的事情如下:

  • 标注具有序数值的编码特征。

  • 一个热编码其他。

这就是我在数据预处理步骤中所做的一切。完成上述步骤后,我的特征空间从原来的 4 增加到 50。我得到 17 个集群作为剪影得分 0.60 的最佳集群数。

另外,我认为做主成分分析(PCA)来减少尺寸和特征缩放在这里没有意义,好像我这样做,我还不如使用 K-means。运行 PCA 然后将 k-means 用于分类变量会是一个好的决定吗?

1个回答

否 - PCA 和 k-means 不能用于分类变量。PCA 和 k-means 都需要数值变量。