我正在使用具有 130 多个特征的 kaggle 数据集,这些特征由 116 个分类特征和 14 个连续特征组成。我绘制了 14 个连续变量的热图,发现它们中的大多数与响应变量的相关性较弱,但彼此之间的相关性很高。我正在尝试将 PCA 应用于这部分数据,并将它们作为具有分类变量的列重新粘合在一起。这样做可以吗?或者我应该对分类变量进行一次热编码/标签编码并对整个数据集进行 pca 吗?
您可以将 PCA 应用于数据集的一部分吗?
数据挖掘
数据集
数据
数据清理
主成分分析
虚拟变量
2022-02-21 11:16:03
1个回答
我绘制了 14 个连续变量的热图,发现它们中的大多数与响应变量的相关性较弱,但彼此之间的相关性很高
您绝对可以从原始数据中选择特定列 [连续数据] 并对它们应用 PCA,PCA1、PCA2 特征向量将向您显示每个特征之间的相关性。但是,在应用 PCA 时,您应该使用所有数据点或行,因为 PCA 计算数据点之间的最大方差,并且最好使用所有数据点来获得准确的结果。
所以简而言之,您应该明智地选择列[特征],而不是明智地选择行[数据点]。
这样做可以吗?或者我应该对分类变量进行一次热编码/标签编码并对整个数据集进行 PCA?
不需要这样做,并且在 PCA 的情况下没有意义,因为它只适用于连续数据点。
其它你可能感兴趣的问题