假设您有 1000 个特征,以及一个由 50,000 个点组成的数据集。假设我们执行 PCA,我们提取前 5 个 PC,因为它们解释了 99.99% 的方差,这就是我们关心的全部。
从前 5 台 PC 中,我们是否可以“倒退”并能够破译,最初的 1000 台最“重要”的功能是什么?例如,我们能否回答“我最初的 1000 项功能的哪些组合构成了我的顶级 PC”的问题?
谢谢你。
假设您有 1000 个特征,以及一个由 50,000 个点组成的数据集。假设我们执行 PCA,我们提取前 5 个 PC,因为它们解释了 99.99% 的方差,这就是我们关心的全部。
从前 5 台 PC 中,我们是否可以“倒退”并能够破译,最初的 1000 台最“重要”的功能是什么?例如,我们能否回答“我最初的 1000 项功能的哪些组合构成了我的顶级 PC”的问题?
谢谢你。
每个主成分将整个原始特征空间投影到几个维度上,我将其称为潜在特征。原始特征对潜在特征的贡献越大,它对该特征的重要性就越大。
因此,查看对应于最大特征值。它们越大,特定特征对该主成分的贡献就越大。
但是请注意,这些通常会很密集。如果您想找到某种能够解释大部分数据的最小特征空间,您可能会对稀疏 pca 感兴趣。
您可以通过查看该 PC 的负载来回答最后一个问题。您也可以为其他 5 台 PC 中的每一台执行此操作。我不确定您可以对特定变量的整体重要性做些什么。
由于特征向量来自原始变量的线性组合,因此我认为您无法安全地确定可以从 PCA 中删除哪些原始变量。我觉得这更像是一个因素分析问题(与潜在变量有关)。