PCA 之前的数据缩放:如何处理分类值?

数据挖掘 分类数据 主成分分析 正常化 特征缩放
2021-10-01 02:01:02

我必须在包含数值和分类值的数据集上应用 PCA。在预处理阶段,我将所有分类值转换为数值,以便软件可以处理它们(基本上我创建了虚拟变量)。现在,为了应用 PCA,我必须缩放数据矩阵,使平均值等于 0。我的问题是:归一化分类值是否有意义(现在是数字,但它们实际上是分类值) ? 我认为它没有,但在这种情况下,我该如何进行?我在不缩放这些变量的情况下进行 PCA?

谢谢!

1个回答

对于混合数据,您不能使用 PCA,或者至少不推荐。最好使用混合数据的因子分析你很幸运,Prince是一个涵盖所有数据场景的 Python 包,借用它的解释:

  • 您所有的变量都是数字:使用主成分分析(prince.PCA)
  • 您有一个列联表:使用对应分析 (prince.CA)
  • 您有超过 2 个变量,它们都是分类的:使用多重对应分析 (prince.MCA)
  • 您有分类或数值变量组:使用多因素分析 (prince.MFA)
  • 您同时拥有分类变量和数值变量:使用混合数据的因子分析 (prince.FAMD)

在 stats.stackexchange 或在researchgate的讨论中查看这个问题/答案