您可以将 PCA 应用于数据集的一部分吗?

数据挖掘 数据集 数据 数据清理 主成分分析 虚拟变量
2022-02-21 11:16:03

我正在使用具有 130 多个特征的 kaggle 数据集,这些特征由 116 个分类特征和 14 个连续特征组成。我绘制了 14 个连续变量的热图,发现它们中的大多数与响应变量的相关性较弱,但彼此之间的相关性很高。我正在尝试将 PCA 应用于这部分数据,并将它们作为具有分类变量的列重新粘合在一起。这样做可以吗?或者我应该对分类变量进行一次热编码/标签编码并对整个数据集进行 pca 吗?

1个回答

我绘制了 14 个连续变量的热图,发现它们中的大多数与响应变量的相关性较弱,但彼此之间的相关性很高

您绝对可以从原始数据中选择特定列 [连续数据] 并对它们应用 PCA,PCA1、PCA2 特征向量将向您显示每个特征之间的相关性。但是,在应用 PCA 时,您应该使用所有数据点或行,因为 PCA 计算数据点之间的最大方差,并且最好使用所有数据点来获得准确的结果。

所以简而言之,您应该明智地选择列[特征],而不是明智地选择行[数据点]。

这样做可以吗?或者我应该对分类变量进行一次热编码/标签编码并对整个数据集进行 PCA?

不需要这样做,并且在 PCA 的情况下没有意义,因为它只适用于连续数据点。