我有一个包含 14~ 个属性的数据集,其中大约一半是名义上的。我使用二进制矢量化器将这些值转换为多个属性。属性的数量自然而然地激增;我现在大约50岁。我已经研究过使用 PCA 来减少这个数字。
据我所知,我一直在阅读的内容,我应该从分析中排除我的目标变量。但我不确定我是否应该对整个剩余数据集(包括已经是数字的值,如“年龄”)执行 PCA,或者只对我从名义转换为数字的值执行 PCA,然后将它们重新添加到已经是数值。
澄清一下,我已经将此数据集从标称转换为二进制,我不确定是否应该将 PCA 应用于生成的二进制列或整个事物。